top of page
  • Legit Digital

Що таке robots.txt та навіщо він потрібен на сайті?



Файл robots.txt — текстовий файл у форматі .txt, що обмежує пошукові роботи доступ до вмісту на httpы-сервері. Він складається з набору вказівок для пошукових роботів, які рекомендують до заборони на індексацію певних файлів, сторінок або каталогів на сайті. Проте, вказівки в файлі не є обов'язковим обмеженням для пошукових систем.


Якщо robots.txt неправильно налаштований чи зовсім відсутній, сайт може не індексуватися і повністю пропасти з результатів пошуку в Google та інших пошукових систем.


Правильне налаштування robots.txt дозволяє уникнути попадання приватної інформації в результати пошуку.


Основні параметри та налаштування robots.txt


Disallow: - основний параметр для заборони сканування окремих файлів, посилань чи навіть категорій. Назви файлів та папок, до яких потрібно обмежити доступ, вказують після символу "/"


Наприклад:



User-agent: * - показуємо для якого пошукового робота вказівки нижче (* означає для всіх) 
Disallow: /page.html - закриваємо конкретну сторінку сайту.
Disallow: /*.pdf - закриваємо усі файли формату .pdf
Disallow: / - закриваємо увесь сайт від індексації.
Disallow: /category/ - закриваємо усю категорію від індексації

Allow: - параметр для відкриття до індексації окремих файлів чи сторінок.


Наприклад, нам потрібно відкрити усі зображення в папці /wp-admin/ . Проте це системна папка у Wordpress, де можуть бути технічні сторінки, які не потрібно індексувати. Тому ми вказуємо так:


User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/*.jpeg
Allow: /wp-admin/*.webp
Allow: /wp-admin/*.png
Allow: /wp-admin/*.jpg
Allow: /wp-admin/*.gif

Таким чином, ми відкрили усі зображення в папці.


Sitemap: - Команда sitemap у robots.txt вказує на шлях до карти сайту.


Приклад:


Sitemap: https://site.com.ua/sitemap2023.xml

Приклад robots.txt на сайті


Використання декількох юзер-агентів свідчить про те, що Розетка закриває свій сайт від індексації окремих роботів інших компаній, що моніторять інформацію з метою подальшого використання у своїх цілях (ціни, контент, SEO-методи і т.д.).


Як перевірити свій robots.txt на корректність?


Перевіряємо наявність файлу robots.txt у корені сайту.

Переконуємося, що:

  • всі корисні для відвідувача сторінки доступні для індексації, технічні та порожні - приховані, дублі - приклеєні через rel="canonical", заповнені в Google Search Console дані про те, що робить той чи інший get-параметр;

  • файл містить директиву Sitemap (вказує на розташування файлу карти сайту. Помилки призводять до того, що робот індексує сторінки некоректно, тому вони не відображаються в пошуку);

  • шлях site.ru/robots.txt коректно відкриває необхідний файл.

За допомогою Screaming Frog SEO Spider, вкладка Response Codes: Blocked by Robots.txt можна відразу визначити, що закрито на даний момент.


У Screaming Frog SEO Spider вибираємо Bulk Exports -> Response Codes -> by Robots.txt - це посилання на сторінках сайту, що ведуть на закриті за допомогою robots.txt сторінки.


Додаткова інформація


Синтаксис та директиви для файлу Robots.txt:


Перевірка файлу robots.txt у Google: https://www.google.com/webmasters/tools/robots-testing-tool

39 переглядів0 коментарів
bottom of page