Автор: Никита Иванов | 07 февраля 2013 13:11

Что такое robots.txt ?

Список вопросов в статье

1) Что такое поисковый робот?
2) Что такое robots.txt?
3) Как создать robots.txt?
4) Что и зачем можно записать в этот файл?
5) Примеры названий роботов
6) Пример готового robots.txt
7) Как проверить работу моего файла?

1. Что такое поисковый робот?

Робот (англ. crawler) хранит список URL, которые он может проиндексировать, и регулярно выкачивает соответствующие им документы. Если при анализе документа робот обнаруживает новую ссылку, он добавляет ее в свой список. Таким образом, любой документ или сайт, на который есть ссылки, может быть найден роботом, а значит, и поиском Яндекса.

2. Что такое robots.txt?

Поисковые роботы ищут на сайтах в первую очередь файл robots.txt. Если у Вас на сайте есть директории, контент и тп, которые бы Вы, например, хотели скрыть от индексации (поисковик не выдавал информацию по ним. Например: админка, другие панели страницы), то должны внимательно изучить инструкцию по работе с данным файлом.

robots.txt - это текстовый файл (.txt), который находится в корне (коренвой директории) Вашего сайта. В нём записываются инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.

3. Как создать robots.txt?

Создать robots.txt очень просто. Заходим в обычный текстовой редактор (или правая кнопка мыши - создать - текстовой документ), например, Блокнот (Notepad). Далее создаём текстовой файл и переименовываем его в robots.txt .

4. Что и зачем можно записать в файл robots.txt?

Перед тем, как указать команду поисковику, нужно определиться, к какому Боту она будет адресована. Для этого существует команда User-agent
Ниже привёл примеры:

User-agent: *  # написанная после этой строки команда будет обращена ко всем поисковым роботам
User-agent: YandexBot  # обращение к основному роботу индексации Яндекса
User-agent: Googlebot  # обращение к основному роботу индексации Google

Разрешаем и запрещаем индексацию
Для разрешения и запрета индексации есть две соответствующие команды - Allow (можно) и Disallow (нельзя).

User-agent: *
Disallow: /adminka/ # запрещает всем роботам индексировать директорию adminka, в которой якобы админ-панель

User-agent: YandexBot  # команда ниже будет обращена к Яндексу
Disallow: / # запрещаем индексацию всего сайта роботом Яндекса

User-agent: Googlebot  # команда ниже будет обращена к Google
Allow: /images  # разрешаем индексировать всё содержимое директории images
Disallow: / # а всё остальное запрещаем

Порядок не важен

User-agent: *
Allow: /images
Disallow: /

User-agent: *
Disallow: /
Allow: /images
# и там, и там разрешено индексировать файлы
# начинающиеся с '/images'

Директива Sitemap
Данная команда указывает адрес карты вашего сайта:

Sitemap: http://yoursite.ru/structure/my_sitemaps.xml # Указывает адрес карты сайта

Директива Host
Данная команда вставляется В КОНЦЕ вашего файла и обозначает главное зеркало
1) прописывается В КОНЦЕ вашего файла
2) указывается только один раз. в противном случае принимается только первая строка
3) указывается после Allow или Disallow

Host: www.yoursite.ru # зеркало Вашего сайта 

#Если www.yoursite.ru главное зеркало сайта, то  
#robots.txt для всех сайтов-зеркал выглядит так 
User-Agent: *
Disallow: /images
Disallow: /include
Host: www.yoursite.ru

# по умолчанию Google игнорирует Host, надо сделать так
User-Agent: * # индексируют все
Disallow: /admin/ # запрещаем индекс админа
Host: www.mainsite.ru # указываем главное зеркало
User-Agent: Googlebot # теперь команды для Google
Disallow: /admin/ # запрет для Google

Внимание! Параметр Host должен состоять из одного корректного имени хоста (соответствовал RFC 952 и не должен быть IP-адресом) и допустимого номера порта. Некорректно составленные строчки 'Host:' игнорируются.

5. Примеры названий роботов

Роботы Яндекса
У Яндекса есть несколько видов роботов, которые решают самые разные задачи: один отвечают за индексацию изображений, другие за индексацию rss данных для сбора данных по блогам, третьи - мультимедийные данные. Самый главный - YandexBot, он индексирует сайт с целью составить общую базу данных по сайту (заголовки, ссылки, текст и тп). Также есть робот для быстрой индексации (индексация новостей и тп).

YandexBot -- основной индексирующий робот;
YandexMedia -- робот, индексирующий мультимедийные данные;
YandexImages -- индексатор Яндекс.Картинок;
YandexCatalog -- «простукивалка» Яндекс.Каталога, используется для временного снятие с публикации недоступных сайтов в Каталоге;
YandexDirect -- робот Яндекс.Директа, особым образом интерпретирует robots.txt;
YandexBlogs -- робот поиска по блогам, индексирующий посты и комментарии;
YandexNews -- робот Яндекс.Новостей;
YandexPagechecker -- валидатор микроразметки;
YandexMetrika -- робот Яндекс.Метрики;
YandexMarket -- робот Яндекс.Маркета;
YandexCalendar -- робот Яндекс.Календаря.

6. Пример готового robots.txt

Собственно пришли к примеру готового файла. Надеюсь после приведённых выше примеров Вам всё будет понятно.

User-agent: *
Disallow: /admin/
Disallow: /cache/
Disallow: /components/

User-agent: Yandex
Disallow: /admin/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/

Sitemap: http://yoursite.ru/structure/my_sitemaps.xml

Host: www.yoursite.ru

Внимание! Если Ваш файл слишком большой и превышает 32 Кб, то он по умолчанию разрешает всё для всех ботов.

7. Как проверить работу моего файла?

1) Загружаем файл в Яндекс Вебмастер
2) Читаем результаты

Спасибо за внимание! Надеюсь, что материал был полезен!

01 апреля 2013 14:03	Правильная подготовка сайта к индексации в поисковых системах
02 апреля 2015 12:26	Как увеличить доход сайта с Google AdSense?
28 мая 2013 13:52	Как создать карту сайта sitemap?
25 марта 2013 17:52	Как правильно подобрать наиболее выгодные ключевые слова?
25 марта 2013 15:16	Что такое ИЦ, ТИЦ, ВИЦ, PR?