Вебзик
СОЗДАНИЕ КАЧЕСТВЕННЫХ САЙТОВ
ИНТЕРНЕТ-МАГАЗИНЫ ПОД КЛЮЧ

Зачем нужен файл robots.txt

27.08.2007 | Мастерская

Файл robots.txt предназначен для запрета индексации вашего сайта или отдельных папок на сервере поисковыми роботами.

Теперь разберёмся зачем надо запрещать что то индексировать.

Во-первых бывает ситуация когда сайт построен на системе управления CMS скрипты которой расположены в директории например /admin/, так вот зачем нам чтобы поисковые роботы индексировали данную папку, ведь (в ней нет полезной информации которую мы бы хотели показать нашим посетителям), но там есть закрытая часть которую вовсе необязательно индексировать.

Во-вторых многие поисковые роботы отказываются вообще индексировать сайт только потому что в корне не нашли файл инструкцию robot.txt. Поэтому наличие данного файла крайне желательна.

Что же он из себя представляет:

Файл robots.txt - простой текстовый файл, который должен находиться в корневой директории сервера в папке www или _pablic. Имя файла должно быть в нижнем регистре.

Файл robots.txt должен создаваться в текстовом формате Unix (например в обычном Блокноте). При копировании данного файла на сайт, ftp-клиент должен быть настроен на текстовый режим обмена файлами.

Рассмотрим два основных имени полей в файле robots.txt.

User-agent
Значением этого поля является имя поискового робота, к которому применяются правила исключений. Если строк с User-agent несколько, то для всех роботов применяются одинаковые правила, которые содержаться в текущей записи. Если значение поля равно "*", то правила применяются к любому роботу, для которого нет отдельной записи. В файле robots.txt может быть только одна запись с User-agent: *.

Disallow
В записи должно быть хотя бы одно поле Disallow. В поле Disallow указывается частичный или полный путь (URL), который не будет посещен. Пустое значение (Disallow: ) интерпретируется как разрешение на посещение любой страницы. Регулярные выражения и символы подстановки запрещены.

Пример содержания robots.txt
User-agent: *
Disallow: /adm/
// Запрещена индексация всех URL начинающихся с префикса /adm

User-agent: Aport
Disallow:
// Разрешить Апорту индексировать все.

Источник: Создание Сайтов НН