Що таке robots.txt та навіщо він потрібен на сайті?

Legit Digital
30 січ. 2023 р.
Читати 2 хв

Файл robots.txt — текстовий файл у форматі .txt, що обмежує пошукові роботи доступ до вмісту на httpы-сервері. Він складається з набору вказівок для пошукових роботів, які рекомендують до заборони на індексацію певних файлів, сторінок або каталогів на сайті. Проте, вказівки в файлі не є обов'язковим обмеженням для пошукових систем.

Якщо robots.txt неправильно налаштований чи зовсім відсутній, сайт може не індексуватися і повністю пропасти з результатів пошуку в Google та інших пошукових систем.

Правильне налаштування robots.txt дозволяє уникнути попадання приватної інформації в результати пошуку.

Основні параметри та налаштування robots.txt

Disallow: - основний параметр для заборони сканування окремих файлів, посилань чи навіть категорій. Назви файлів та папок, до яких потрібно обмежити доступ, вказують після символу "/"

Наприклад:

User-agent: * - показуємо для якого пошукового робота вказівки нижче (* означає для всіх) 
Disallow: /page.html - закриваємо конкретну сторінку сайту.
Disallow: /*.pdf - закриваємо усі файли формату .pdf
Disallow: / - закриваємо увесь сайт від індексації.
Disallow: /category/ - закриваємо усю категорію від індексації

Allow: - параметр для відкриття до індексації окремих файлів чи сторінок.

Наприклад, нам потрібно відкрити усі зображення в папці /wp-admin/ . Проте це системна папка у Wordpress, де можуть бути технічні сторінки, які не потрібно індексувати. Тому ми вказуємо так:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/*.jpeg
Allow: /wp-admin/*.webp
Allow: /wp-admin/*.png
Allow: /wp-admin/*.jpg
Allow: /wp-admin/*.gif

Таким чином, ми відкрили усі зображення в папці.

Sitemap: - Команда sitemap у robots.txt вказує на шлях до карти сайту.

Приклад:

Sitemap: https://site.com.ua/sitemap2023.xml

Приклад robots.txt на сайті

Використання декількох юзер-агентів свідчить про те, що Розетка закриває свій сайт від індексації окремих роботів інших компаній, що моніторять інформацію з метою подальшого використання у своїх цілях (ціни, контент, SEO-методи і т.д.).

Як перевірити свій robots.txt на корректність?

Перевіряємо наявність файлу robots.txt у корені сайту.

Переконуємося, що:

всі корисні для відвідувача сторінки доступні для індексації, технічні та порожні - приховані, дублі - приклеєні через rel="canonical", заповнені в Google Search Console дані про те, що робить той чи інший get-параметр;
файл містить директиву Sitemap (вказує на розташування файлу карти сайту. Помилки призводять до того, що робот індексує сторінки некоректно, тому вони не відображаються в пошуку);
шлях site.ru/robots.txt коректно відкриває необхідний файл.

За допомогою Screaming Frog SEO Spider, вкладка Response Codes: Blocked by Robots.txt можна відразу визначити, що закрито на даний момент.

У Screaming Frog SEO Spider вибираємо Bulk Exports -> Response Codes -> by Robots.txt - це посилання на сторінках сайту, що ведуть на закриті за допомогою robots.txt сторінки.