Файл Robots.txt

SEO, Полезное

Для чего нужен robots.txt?

Файл robots.txt используется поисковыми роботами (пауками, spiders), которые посещают ваш веб сайт и собирают с него информацию. Иногда нужно закрыть от сбора информации (индексации) некоторые файлы или целые директории, в которых содержится ненужная поисковику информация - скрипты, системные файлы и т.п. Также, частое обращение к файлам на вашем сервере поисковым роботом может привести к тому, что ваш сайт не будет доступен посетителям из-за активного сбора роботом информации с вашего сервера.

Потому желательно установить этот файл с набором простых инструкций для поискового робота на сервер.

В файле размещаются инструкции, с помощью которых вы можете запретить для индексации те или иные файлы или папки.

Robots.txt является обычным текстовым файлом, который помещается в корневую директорию вашего сайта, например:

http://yoursite.com.ua/robots.txt

Формат файла очень прост – состоит из строк-записей, которые отделяются пустыми строками. Каждая строка имеет формат <команда/оператор>:<опциональный пробел><значение><опциональный пробел>

Например:

  • User-agent: googlebot
  • Disallow: /cgi-bin/

Данный блок запрещает роботу googlebot индексировать (собирать информацию) директорию /cgi-bin/ на вашем сервере.

Формат файла robots.txt

В файле допускается использовать комментарии. Каждый комментарий должен начинаться с символа октоторпа - ‘#’. Текст после этого символа будет игнорироваться поисковым пауком. Однако не рекомендуется использовать комментарии, так как не все роботы достаточно хорошо написаны, и могут принять комментарий за команду.

Каждая запись начинается с одной или нескольких User-agent строк, которые дополняются одной или несколькими Disallow строками.

User-agent:
Значением этого параметра является имя робота, для которого описываются права доступа. Предпочтительным является прописывать имя робота без версии и помнить, что данная запись является чувствительной к регистру – записи User-agent: googlebot и User-agent: Googlebot не являются идентичными!

Если вы хотите запретить доступ всем поисковым роботам, то для этого используется символ звездочки ‘*’.

Например:

  • User-agent: *
  • Disallow: /my-private-folder/

Disallow:
Значением этого поля является путь к файлу/папке, к которой нужно закрыть доступ. Значением может быть как полный путь, так и частичный.

Например:

  • Disallow: /my-secret/

Запрещает доступ к директории /my-secret/.

Здесь есть один важный момент:

Запись вида:

  • User-agent: googlebot
  • Disallow: /myfolder

запретит роботу индексировать директории /myfolder/, /myfolder-whatever и файлы - /myfolder.html, /myfolder-somefile.html. То есть, если не поставить в конце записи слеш, то все директории и файлы которые начинаются с myfolder будут недоступны поисковым роботам.

Запись вида:

  • User-agent: googlebot
  • Disallow: /myfolder/

запретит к индексации только директорию /myfolder/ и файлы в ней.

Запись вида:

  • User-agent: googlebot
  • Disallow: /myfile.hml

запретит к индексации файл /myfile.html.

Что нужно знать о файле robots.txt

Вы не должны допускать ошибок, так как, допустив одну – поисковый робот может перестать индексировать ваш сайт, и он просто исчезнет из поисковой машины.

Некоторые рекомендации:

  • Не используйте комментариев в файле robots.txt. Хотя они и разрешены, некоторые роботы могут неправильно их обрабатывать.
  • Не ставьте лишних пробелов в начале или конце строки. Недопустимо:
    •    User-agent: *
    • Disallow: /support/
  • Не изменяйте порядок команд.
  • Имена файлов и директорий чувствительны к регистру. Поэтому записи myflie.html и MyFile.html для робота будут разными файлами.
  • Если вам нужно закрыть все файлы в папке, не нужно описывать каждый файл, лучше всего будет описать всю папку для закрытия от индексации роботом.
  • Не существует команды “Allow”. Для того что бы допустить все папки и файлы к индексации, лучшим выходом будет написать следующее:
    • User-agent: *
    • Disallow:
  • Не вписывайте в этот файл секретные директории, так как файл доступен для всех, и каждый сможет увидеть вписанную в него директорию.

Примеры:

В следующем примере мы запрещаем доступ к папкам /secret-files/, /cgi-bin/ и файлу myfile.html:

  • User-agent: *
  • Disallow: / secret-files/
  • Disallow: / cgi-bin/
  • Disallow: /myfile.html

А в этом примере роботу недоступен весь сайт:

  • User-agent: *
  • Disallow: /

Где можно найти имена поисковых роботов?

Имена некоторых роботов, которые посещают веб сайт, вы можете найти в статистике вашего сайта.

Известные поисковые роботы:

Имя Описание
Acoon Acoon bot
AnzwersCrawl Australian search
Arachnoidea EuroSeek search
Araneo Apparently spiders
ArchitextSpider Excite spider
Atomz Atomz bot
CMC Computer Music Center bot
ComputingSite ComputingSite bot
Cruizer Southafrican spider
Datenbank Datenbank.de bot
DeepIndex DeepIndex spider
Die Blinde Kuh German Kids spider
DomainsDB.net MetaCrawler v.0.9.7b http://domainsdb.net/
Esther Build database bot
ExplorerSearch New Zealand Explorer
Fast-WebCrawler AllTheWeb spider
Fido PlanetSearch spider
FreeCrawl EuroSeek spider
Gaisbot GAIS spider
Gigabot Gigablast
Googlebot/2.1 (+http://www.google.com/bot.html) Google
Gulliver Northern Light spider
Gulper Web Bot Yuntis web robot
Icorus Webmasterworld.com Bot
InfoSeek InfoSeek spider
Iron33 Verno spider
IsraeliSearch=Israeli Society
JCrawler Vietnamese search
KIT Fireball Fireball search
KO Yappo Yappo search
Mercator Altavista spider
Mewsoft Search Engine Newsoft spider
Motor CyberCon Search spider
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) Yahoo!
MuscatFerret EuroFerret database
MwdSearch Finnish search
NEC MeshExplorer NETPLAZA search
Nederland Zoek Nederland.net search
NetScoop NetScoop search
Nutch open-source web search
Onet.pl SA http://szukaj.onet.pl
Openbot Openfind search
Openfind data gatherer Openfind bot
Orb Search Orb search
RHCS RoadHouse search
Scooter Altavista spider
Scrubby Scrub The Web search
SearchTone Developer’s site spider
Sidewinder InfoSeek spider
Slurp Inktomi/Hot Bot search
StackRambler/2.0 (MSIE incompatible) Rambler.ru bot
SurveyBot/2.3 (Whois Source) http://www.whois.sc/
SwissSearch Swiss search
Tarantula Altavista spider
Trek17 Altavista search
UdiSearch Yahoo spider
UltraSeek InfoSeek spider
VWbot SearchBC database spider
Vagabondo Mainly Dutch spider
Valkyrie Japanese ODIN search
Voyager Lisa search service
WebCrawler Fast
WebCrawler WebCrawler search
WebQuest Build search
Wired Digital Wired Digital spider
YahooSeeker Yahoo spider
Yandex/1.01.001 (compatible; Win16; H) «зеркальщик» Яндекса, т.е. робот, определяющий зеркала сайтов.
Yandex/1.01.001 (compatible; Win16; I) индексирующий робот Яндекса.
Yandex/1.01.001 (compatible; Win16; P) индексатор картинок Яндекса.
Yandex/1.03.000 (compatible; Win16; M) подсветчик, робот, обращающийся к странице по ссылке «Найденные слова» и «подсвечивающий» слова запроса в ее тексте.
Yandex/1.03.003 (compatible; Win16; D) робот, обращающийся к странице при ее добавлении через форму «Добавить URL».
Zealbot LookSmart spider
ZyBorg Wisenut search
aWapClient WAP content crawler
ah-ha.com ah-ha bot
aport Aport.ru bot
appie Walhello.com search
ask jeeves Ask Jeeves
bumblebee= Relevare.com bot
crawler3 Altavista spider
ia_archiver Archive.org Bot
lycos Lycos.com Bot
msnbot/1.0 (+http://search.msn.com/msnbot.htm) MSN Search
scooter Altavista
semanticdiscovery Semanticdiscovery.com spider
slurp@inktomi inktomi
szukacz Polish searches
w3index Scandinavian web spider
whatuseek What You Seek

 

© 2008 Как сделать веб сайт
Entries RSS Comments RSS