Файл Robots.txt. Что это и зачем он нужен? SEO — Evolution SEO — Evolution

Файл Robots.txt. Что это и зачем он нужен?

Файл robots.txt предназначен для хранения рекомендаций поисковым роботам с описанием адресов страниц и элементов, которые не требуется индексировать. Большинство таких программ следует определенному перечню. Но для полного запрета индексации необходимо использовать дополнительные меры – метатеги «noindex» и специальные атрибуты ссылок «nofollow».

Особенности файла robots.txt:

  • может быть только один;

  • хранится в корневом каталоге;

  • название строго robots.txt;

  • синтаксис рекомендаций соответствует стандартам.

Результатом нарушения этих правил станет игнорирование рекомендаций со стороны поискового робота. Индексация будет осуществляться согласно внутреннему алгоритму программы. Поэтому некоторые важные страницы могут быть отсканированы позже.

Зачем скрывать отдельные страницы от поисковой индексации:

  • административные и вспомогательные файлы. Не несут смысловой нагрузки, загружают сервер;

  • страницы с идентичным контентом. Несколько страниц, содержащих одинаковые тексты, могут восприниматься поисковой системой, как спам. Это влечет бан;

  • защита персональных данных. Хранение личной информации и паролей может осуществляться в отдельных файлах. Запрет в robots.txt – одна из мер защиты от их нахождения. Более надежный способ – отсутствие ссылающихся на эти странички ссылок. Можно установить пароль на доступ к файлу.

Содержимое User-agent

Строка «User-agent» в robots.txt указывает название поискового робота, для которого запрещена индексация. Если необходимо сделать запрет для всех программ, пишется следующая строка:

User-agent: *

где «*» означает все поисковые роботы.

Строка «User-agent» – мощный инструмент. Если на сайте присутствует отдельная мобильная версия, можно запретить индексацию страниц, предназначенных для десктопа и содержащих аналогичный контент для мобильного поисковика. То же самое действует в обратном случае.

Строка «User-agent» начинает инструкции для каждого поисковика. Можно написать отдельные рекомендации для каждой поисковой системы, если это необходимо.

Содержимое «Disallow»

«Disallow» – команда, после которой отображается адрес страницы или запрещенного к индексации каталога. Правильное использование этого инструмента предоставит возможность оптимально направить поискового робота.

Хорошей практикой использования «Disallow» для большого количества хранящихся в одном каталоге файлов будет перемещение в другую папку вместо запрета каждого элемента отдельно. В данной инструкции можно указать конкретные адреса и специальные символы, предоставляющие возможность запрещать целые блоки линков с конкретными элементами в написании.

Противоположная по действию команда «Allow». Она показывает адрес, который необходимо проиндексировать. Практика использования этой инструкции ограничена, так как все незапрещенные для сканирования поисковым роботом страницы подпадают под индексацию.

Частный случай применения «Allow» – возможность указания отдельного файла для индексации, находящегося в закрытом каталоге (который указан в «Disallow»). Прибегать к подобному подходу рекомендуется, когда не получается перенести страничку за пределы запрещенной папки без потери структуры.

«Host» и «Sitemap»

Инструкция «Host» применяется исключительно для поисковой машины Яндекс. Она позволяет указывать основное зеркало ресурса с «www» или без него.

Команда «Sitemap» содержит правильный адрес файла с картой сайта. Это позволяет ускорить индексирование.

Поисковый робот первым проверяет файл robots.txt. Если он правильно составлен, сайт будет лучше сканироваться. Правильность его составления проверяется SEO-специалистами в ходе проведения поискового аудита сайта, технического и комплексного.

Поделиться в соц.сетях