Как управлять индексацией ресурса с помощью Robots.txt

Robots.txt – это стандарт исключений для поисковых роботов. Другими словами, это файл ограничения доступа к содержимому ресурса поисковым роботам на http-сервере. Данный файл можно использование добровольно.

 

Стандарт Robots.txt был принят консорциумом еще в январе 1994 года. Для того чтобы создать такой файл как robotx.txt, нужен самый простой текстовый файл. Если Вы не намереваетесь создавать запреты поисковым роботам к индексации, нужно сделать пустой файл robots.txt. Для Рунета самой часто популярной задачей является создание файла robots.txt специально для Яндекса, так как Яндекс является самой популярной поисковой системой.

Делая robots.txt специально для Яндекса, нужно уметь использовать директиву host, которую соблюдает этот поисковик, правильным образом. Все поисковые системы управляют индексацией сайтов при помощи специального файла robots.txt, который находится в корневом каталоге сервера ресурса. Именно этот файл извещает поисковых роботов (или другими словами ботов), какие файлы они могут поддавать индексации, а какие нет. Специальный файл robots.txt состоит из ряда записей. Каждая запись имеет минимум две строки: одну строку с наименованием клиентского приложения (или другими словами User-agent), и одной строки (или нескольких строк), которая начинается с директивы Disallow. Строки, которые являются пустыми в файле robots.txt называются значимыми, они же и разделяют записи, которые имеют разные строки User-agent (клиентских приложений).

А теперь рассмотрим более внимательно User-agent Специальная строка User-agent предназначается для указания наименования робота. Например, в данной строке показано наименование поискового робота системы Google – «googlebot»: User-agent: googlebot Бот поисковой системы Яндекс имеет название «Yandex» Бот поисковой системы Рамблер называется «StackRambler» Бот поисковой системы Yahoo называется «Yahoo! Slurp» Бот поисковой системы MSN – «msnbot» Наименования других поисковых роботов Вы имеете возможность найти в специальных логах Вашего сервера. Если же Вы имеете желание запретить индексацию файлов или различных папок всеми поисковыми системами и их роботами, то Вы должны использовать специальный символ подстановки «*»: User-agent: * Disallow Вторая часть такой записи имеет в наличии строки Disallow. Эти строки являются директивами для поискового робота (или для пары роботов).

Они извещают робота о том, что некоторое файлы и/или папки запрещены для индексации. В строках с таким полем как Disallow делаются записи не абсолютных, а относительных префиксов, то есть делать вывод названия домена не нужно. Например, наведенная далее директива накладывает запрет роботам на индексацию файла «download.htm», который находится в корневой директории ресурса: Disallow: download.htm Директива также может включать в себя само название папки. Например, наведенная далее директива накладывать запрет на индексацию папки «cgi-bin», которая расположена в корневой директории ресурса: Disallow: /cgi-bin/ Наведенная далее директива накладывает запрет роботам на индексацию файла «catalog.html», а также папку «catalog»: Disallow: /catalog Если директива Disallow является пустой, то это означает, что поисковый робот имеет возможность проводить индексацию всех файлов.

Также как минимум одна специальная директива Disallow обязана присутствовать в каждом поле User-agent, для того, чтобы robots.txt был нормально воспринят поисковыми системами и их роботами. Пустой robots.txt обозначает то же, что и его не наличие на сервере ресурса. А теперь немного повторения для закрепления знаний. Всем поисковым системам и их роботам позволено делать полную индексацию ресурса: User-agent: * Disallow: Индексация ресурса недозволенна всем поисковым системам и их роботам: User-agent: * Disallow: / Запрет на индексацию специальной папки «cgi-bin» всем поисковым роботам всех систем: User-Agent: * Disallow: /cgi-bin/ Запрет на индексацию файла «download.htm» всем поисковым системам: User-Agent: * Disallow: download.htm Файл «download.htm», а также папка «cgi-bin» запрещена для индексации всеми поисковыми роботами: User-Agent: * Disallow: /cgi-bin/ Disallow: download.htm

Запрет на индексацию «download.htm» роботом поисковой системы Google – «googlebot»: User-agent: googlebot Disallow: download.htm А теперь немного дополнительной информации для полного и правильного понимания индексации с помощью специального файла robots.txt. Всякий текст от специального знака решетки “#” до самого конца строки, поисковые роботы считают за комментарий и как результат, поисковые роботы такой текст игнорируют. Например: # Yahoo! No index. User-agent: Yahoo! Slurp Disallow: / Вот мы и рассмотрели эффективный способ управления индексацией сайта с помощью Robots.txt. Теперь дело за Вами!

Комментарии

No Comments

Есть что сказать?

SeoTochka.com 2009-2011