Файл robots.txtЗнаете ли Вы, что поисковые роботы при посещении Вашего сайта, первым делом ищут файл — robots.txt? Все дело в том, что robots.txt — это некий стандарт общения между авторами документов и программами, который был принят еще в 1994 году консорциумом (World Wide Web Consortium, W3C — организация, разрабатывающая и внедряющая тех. стандарты для Всемирной паутины).
Данный файл состоит из набора инструкций для поисковых роботов, благодаря чему можно: указывать очередность индексации документов, запрет индексации определенных страниц или разделов, рекомендовать поисковому роботу соблюдать определенные временные интервалы между скачиванием документов с сервера и многое другое.

Перед тем, как мы начнем разбирать значения и синтаксисы файла robots.txt, хочу предупредить о следующем: все рассматриваемые ниже методы не дают 100 % гарантии, некоторые роботы могут игнорировать или не обращать внимания на те или иные инструкции. Но в большинстве случаев — это общепринятые стандарты.

Правила составления файла robots.txt

Правила

1. Размещается в корневой директории.

2. На сайте может быть только один файл «robots.txt».

3. Название файла в нижнем регистре (другими словами, пишется маленькими буквами).

4. Состоит как минимум из одного блока с двумя инструкциями:
User-agent: — это тип робота;
Disallow: — запрет индексации выбранных документов;

5. Работает по маске. К примеру, если Вы написали Disallow:/index — это будет запретом индексации для всего, что начинается с index (index.php, index.html, директория /index/, и какая-нибудь страница indexpage.html). А если Вы напишите Disallow:/*index — тогда это будет запретом для всего, что заканчивается на index. И еще — если для разных роботов делаете разные инструкции, то такие блоки должны быть разделены пустой строкой.

6. Нельзя использовать регулярные выражения, кроме звездочки «*», которая используется в инструкции User-agent и обозначает — для всех роботов.

7. Можно использовать комментарии: #

8. Инструкции для разных User-agent, должны разделяться пустой строкой

Примеры и пояснения

1. Запрет доступа всех роботов к сайту (тоесть сайт не будет индексироваться вообще):

User-agent: *
Disallow: /

2. Разрешить любым роботам индексировать весь сайт:

User-agent: *
Disallow:

3. Закрыть от индексации нужные директории сайта (для всех роботов):

User-agent: *
Disallow: /cgi-bin/
Disallow: /porno/
Disallow: /private/

4. Запрет доступа Google роботу к определенной папке:

User-agent: googlebot
Disallow: /private/

5. Разрешить индексацию сайта Яндекс роботу и запретить всем остальным:

User-agent: Yandex
Disallow:

User-agent: *
Disallow: /

Нестандартные инструкции

Согласно общим стандартам, файл robots.txt может только налагать запреты, а разрешать что-либо. Но вопреки этому, поисковые роботы учитывают еще одну инструкцию — Allow.

Allow: имеет обратное свойство действию Disallow, которое разрешает доступ к определенной части сайта. Поддерживается всеми основными поисковиками.

Давайте рассмотрим пример, в котором разрешается доступ к странице /video/video_aboutme.html, а ко всей остальной информации в директории /video/ запрещается:

User-agent: *
Allow: /video/video_aboutme.html
Disallow: /video/

Crawl-delay: устанавливает время, которое поисковый робот должен выдерживать между загрузкой страниц. Если робот будет загружать страницы слишком часто, это может создать излишнюю нагрузку на сервер. Впрочем, современные поисковые машины по умолчанию задают достаточную задержку в 1-2 секунды.

User-agent: *
Crawl-delay: 10

Расширенный стандарт robots.txt

В 1996 году был предложен расширенный стандарт robots.txt, который включает такие инструкции как: Request-rate и Visit-time. Вот небольшой пример:

User-agent: *
Disallow: /downloads/

Request-rate: 1/5 # загружать не более одной страницы за пять секунд
Visit-time: 0600—0845 # загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу.

Стоит также отметить, что поисковик Рамблер поддерживает только базовый вариант стандарта — это User-agent и Disallow.

Советы и рекомендации

Для тех, кто использует WordPress, существует уже готовый рекомендованный файл robots.txt (который советуют установить сами разработчики данного движка). Но перед тем как я с Вами поделюсь им, хочу сказать, что данный файл стоит закачивать после установки XML-карты (например, GOOGLE XML SITEMAPS).

А теперь собственно и сам robots.txt:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads

# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*

# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*

# Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /

# digg mirror
User-agent: duggmirror
Disallow: /

Sitemap: http://ваш сайт/sitemap.xml

User-agent: Yandex
Crawl-delay: 5

Disallow: /tag

Примечание: создаем пустой текстовый файл robots.txt, копируем туда все указанное выше, сохраняем и закидуем в корневую папку сайта (там же находится файл .htaccess). Также не забудьте изменить поле «ваш сайт», где необходимо указать адрес именно Вашего сайта.

Думаю, данная информация пригодится Вам, потому что это азы, которые должен знать каждый веб-мастер. Удачи!