Для чего нужен robots.txt?
Файл robots.txt используется поисковыми роботами (пауками, spiders), которые посещают ваш веб сайт и собирают с него информацию. Иногда нужно закрыть от сбора информации (индексации) некоторые файлы или целые директории, в которых содержится ненужная поисковику информация - скрипты, системные файлы и т.п. Также, частое обращение к файлам на вашем сервере поисковым роботом может привести к тому, что ваш сайт не будет доступен посетителям из-за активного сбора роботом информации с вашего сервера.
Потому желательно установить этот файл с набором простых инструкций для поискового робота на сервер.
В файле размещаются инструкции, с помощью которых вы можете запретить для индексации те или иные файлы или папки.
Robots.txt является обычным текстовым файлом, который помещается в корневую директорию вашего сайта, например:
http://yoursite.com.ua/robots.txt
Формат файла очень прост – состоит из строк-записей, которые отделяются пустыми строками. Каждая строка имеет формат <команда/оператор>:<опциональный пробел><значение><опциональный пробел>
Например:
- User-agent: googlebot
- Disallow: /cgi-bin/
Данный блок запрещает роботу googlebot индексировать (собирать информацию) директорию /cgi-bin/ на вашем сервере.
Формат файла robots.txt
В файле допускается использовать комментарии. Каждый комментарий должен начинаться с символа октоторпа - ‘#’. Текст после этого символа будет игнорироваться поисковым пауком. Однако не рекомендуется использовать комментарии, так как не все роботы достаточно хорошо написаны, и могут принять комментарий за команду.
Каждая запись начинается с одной или нескольких User-agent строк, которые дополняются одной или несколькими Disallow строками.
User-agent:
Значением этого параметра является имя робота, для которого описываются права доступа. Предпочтительным является прописывать имя робота без версии и помнить, что данная запись является чувствительной к регистру – записи User-agent: googlebot и User-agent: Googlebot не являются идентичными!
Если вы хотите запретить доступ всем поисковым роботам, то для этого используется символ звездочки ‘*’.
Например:
- User-agent: *
- Disallow: /my-private-folder/
Disallow:
Значением этого поля является путь к файлу/папке, к которой нужно закрыть доступ. Значением может быть как полный путь, так и частичный.
Например:
- Disallow: /my-secret/
Запрещает доступ к директории /my-secret/.
Здесь есть один важный момент:
Запись вида:
- User-agent: googlebot
- Disallow: /myfolder
запретит роботу индексировать директории /myfolder/, /myfolder-whatever и файлы - /myfolder.html, /myfolder-somefile.html. То есть, если не поставить в конце записи слеш, то все директории и файлы которые начинаются с myfolder будут недоступны поисковым роботам.
Запись вида:
- User-agent: googlebot
- Disallow: /myfolder/
запретит к индексации только директорию /myfolder/ и файлы в ней.
Запись вида:
- User-agent: googlebot
- Disallow: /myfile.hml
запретит к индексации файл /myfile.html.
Что нужно знать о файле robots.txt
Вы не должны допускать ошибок, так как, допустив одну – поисковый робот может перестать индексировать ваш сайт, и он просто исчезнет из поисковой машины.
Некоторые рекомендации:
- Не используйте комментариев в файле robots.txt. Хотя они и разрешены, некоторые роботы могут неправильно их обрабатывать.
- Не ставьте лишних пробелов в начале или конце строки. Недопустимо:
- User-agent: *
- Disallow: /support/
- Не изменяйте порядок команд.
- Имена файлов и директорий чувствительны к регистру. Поэтому записи myflie.html и MyFile.html для робота будут разными файлами.
- Если вам нужно закрыть все файлы в папке, не нужно описывать каждый файл, лучше всего будет описать всю папку для закрытия от индексации роботом.
- Не существует команды “Allow”. Для того что бы допустить все папки и файлы к индексации, лучшим выходом будет написать следующее:
- User-agent: *
- Disallow:
- Не вписывайте в этот файл секретные директории, так как файл доступен для всех, и каждый сможет увидеть вписанную в него директорию.
Примеры:
В следующем примере мы запрещаем доступ к папкам /secret-files/, /cgi-bin/ и файлу myfile.html:
- User-agent: *
- Disallow: / secret-files/
- Disallow: / cgi-bin/
- Disallow: /myfile.html
А в этом примере роботу недоступен весь сайт:
- User-agent: *
- Disallow: /
Где можно найти имена поисковых роботов?
Имена некоторых роботов, которые посещают веб сайт, вы можете найти в статистике вашего сайта.
Известные поисковые роботы:
| Имя | Описание |
|---|---|
| Acoon | Acoon bot |
| AnzwersCrawl | Australian search |
| Arachnoidea | EuroSeek search |
| Araneo | Apparently spiders |
| ArchitextSpider | Excite spider |
| Atomz | Atomz bot |
| CMC | Computer Music Center bot |
| ComputingSite | ComputingSite bot |
| Cruizer | Southafrican spider |
| Datenbank | Datenbank.de bot |
| DeepIndex | DeepIndex spider |
| Die Blinde Kuh | German Kids spider |
| DomainsDB.net MetaCrawler v.0.9.7b | http://domainsdb.net/ |
| Esther | Build database bot |
| ExplorerSearch | New Zealand Explorer |
| Fast-WebCrawler | AllTheWeb spider |
| Fido | PlanetSearch spider |
| FreeCrawl | EuroSeek spider |
| Gaisbot | GAIS spider |
| Gigabot | Gigablast |
| Googlebot/2.1 (+http://www.google.com/bot.html) | |
| Gulliver | Northern Light spider |
| Gulper Web Bot | Yuntis web robot |
| Icorus | Webmasterworld.com Bot |
| InfoSeek | InfoSeek spider |
| Iron33 | Verno spider |
| IsraeliSearch=Israeli Society | |
| JCrawler | Vietnamese search |
| KIT Fireball | Fireball search |
| KO Yappo | Yappo search |
| Mercator | Altavista spider |
| Mewsoft Search Engine | Newsoft spider |
| Motor | CyberCon Search spider |
| Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) | Yahoo! |
| MuscatFerret | EuroFerret database |
| MwdSearch | Finnish search |
| NEC MeshExplorer | NETPLAZA search |
| Nederland Zoek | Nederland.net search |
| NetScoop | NetScoop search |
| Nutch | open-source web search |
| Onet.pl SA | http://szukaj.onet.pl |
| Openbot | Openfind search |
| Openfind data gatherer | Openfind bot |
| Orb Search | Orb search |
| RHCS | RoadHouse search |
| Scooter | Altavista spider |
| Scrubby | Scrub The Web search |
| SearchTone | Developer’s site spider |
| Sidewinder | InfoSeek spider |
| Slurp | Inktomi/Hot Bot search |
| StackRambler/2.0 (MSIE incompatible) | Rambler.ru bot |
| SurveyBot/2.3 (Whois Source) | http://www.whois.sc/ |
| SwissSearch | Swiss search |
| Tarantula | Altavista spider |
| Trek17 | Altavista search |
| UdiSearch | Yahoo spider |
| UltraSeek | InfoSeek spider |
| VWbot | SearchBC database spider |
| Vagabondo | Mainly Dutch spider |
| Valkyrie | Japanese ODIN search |
| Voyager | Lisa search service |
| WebCrawler | Fast |
| WebCrawler | WebCrawler search |
| WebQuest | Build search |
| Wired Digital | Wired Digital spider |
| YahooSeeker | Yahoo spider |
| Yandex/1.01.001 (compatible; Win16; H) | «зеркальщик» Яндекса, т.е. робот, определяющий зеркала сайтов. |
| Yandex/1.01.001 (compatible; Win16; I) | индексирующий робот Яндекса. |
| Yandex/1.01.001 (compatible; Win16; P) | индексатор картинок Яндекса. |
| Yandex/1.03.000 (compatible; Win16; M) | подсветчик, робот, обращающийся к странице по ссылке «Найденные слова» и «подсвечивающий» слова запроса в ее тексте. |
| Yandex/1.03.003 (compatible; Win16; D) | робот, обращающийся к странице при ее добавлении через форму «Добавить URL». |
| Zealbot | LookSmart spider |
| ZyBorg | Wisenut search |
| aWapClient | WAP content crawler |
| ah-ha.com | ah-ha bot |
| aport | Aport.ru bot |
| appie | Walhello.com search |
| ask jeeves | Ask Jeeves |
| bumblebee= | Relevare.com bot |
| crawler3 | Altavista spider |
| ia_archiver | Archive.org Bot |
| lycos | Lycos.com Bot |
| msnbot/1.0 (+http://search.msn.com/msnbot.htm) | MSN Search |
| scooter | Altavista |
| semanticdiscovery | Semanticdiscovery.com spider |
| slurp@inktomi | inktomi |
| szukacz | Polish searches |
| w3index | Scandinavian web spider |
| whatuseek | What You Seek |