Что такое robots.txt?

Robots.txt – это текстовый файл, формата .txt который должен располагается в корневой папке вашего сайта. Поисковые роботы, прежде чем обойти страницы вашего сайта и добавить страницы в индекс поисковой системы, ищут на вашем сайте данный файл. При нахождение данного файла поисковой робот считывает правила исходя из которых выполняет обход сайта. Если данный файл не найден, поисковой робот выполняет все действия по умолчанию.

В robots.txt обычно указывают правила обхода папок на хостинге где находится ваш сайт, которые или запрещают или разрешают индексирование страниц и разделов, которые несут или не несут пользы для пользователя.

При создании сайта чаще всего забивают на этот файл, лишь бы сдать проект быстрее. Файла может не быть вовсе или он будет пустой или с неправильным наполнением. Настоятельно рекомендую настроить robots и указать пальцем поисковикам что Вам от них нужно.

Пример robots.txt

Пример robots.txt (он может каким угодно, зависит от вашего сайта и потребностей)

Советы

1. С помощью директивы Disallow должны быть закрыты:

— ненужные служебные разделы сайта
— результаты поиска по сайту
— страницы регистрации и авторизации
— данные пользователей
— фильтры и сортировки
— административные разделы
— кэш страниц
— логи
— версии для печати и др.

2. Раньше в robots.txt требовалось добавлять в отдельном блоке для Яндекса главное зеркало сайта с помощью директивы Hosts. Недавно Яндекс это дело отменил, но директиву многие по-прежнему прописывают.

3. Указывайте последней строкой ссылку на карту сайта в формате XML. Но, с другой стороны, а информационных сайтах советую не палить вашу карту, тем самым усложнить жизнь тем кто ворует ваш контент.

4. Директивы, запрещающие индексацию в файле Роботс.тхт не означают того, что бот не перейдет на эти страницы и не проиндексирует их. Особенно наплевательски к таким директивам относится Гугл.

Если хотите 100% закрыть страницу от попадания в индекс, добавьте в ее html код мета-тег robots.

<meta name=”robots” content=”noindex,follow” />

В мета-теге robots значение „noindex“ запрещает индексировать этот документ (страничку, то есть ее содержимое), а „follow“ разрешает переходить боту по имеющимся на ней ссылкам.

5. Открыть изображения, файлы css и js с помощью директивы Allow.

6. После всего готовые и правильные robots.txt нужно добавить в панели Гугла и Вебмастере Яндекса.

7. Ограничение происходит при помощи тэгов noindex для Рамблера и Яндекса и параметром nofollow для Гугла.

Правила настройки

Необходимо задать отдельные User-Agent для роботов «Яндекса» и Google.
Оффициальные инструкции по оформлению файла robots.txt от
«Яндекса» — https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html
«Google» — https://support.google.com/webmasters/answer/6062608?hl=ru&ref_topic=6061961

Инструменты для проверки:

— визуальный осмотр (названиесайта/robots.txt)
букмарклет robots.txt + meta
— Screaming Frog SEO Spider

Проверка запрета индексации страниц в инструментах вебмастеров
Google — ссылка 1
Yandex — ссылка 2