robots.txt. Тонкости в работе и типичные ошибки...
Данная статья является логическим продолжением статьи под названием «Что нужно знать о файле r
obots.txt. Синтаксис.» рекомендую её также прочитать. Ну что ж, начнём!
Тонкости есть везде и у нас тоже. Вот лишь небольшой список их: 
Как правильно: «User-Agent» или «User-agent». Я рекомендую Вам придерживаться второго варианта, согласно спецификации файла robots.txt 
Если записать просто: 
User-agent: Yandex 
Disallow: /admin 
То это будет означать, что к запрету для бота Яндекса причисляются все файлы и папки, которые начинаются с данного слова. 
Файл должен находиться, только в корневом каталоге, и нигде больше. 
Имя файла может быть только таким: robots.txt 
Такие имена как: Robots.txt, ROBOTS.TXT и проч. являются ошибочными… 
Файл может быть только текстовым, с расширением *.txt 
Нельзя в тексте допускать лишних пустых строк. Пустая строка означает, что следующая за ней строка будет иметь параметры для другого поискового робота. Ошибочный пример. 
User-agent: * 
Disallow: /1/ 
Disallow: /free.html 
Disallow: /cgi/ 
В строках с полем Disallow записываются не абсолютные, а относительные префиксы. Неправильным будет: «Disallow: 
www.sitec.ru/free.html» 
Что касается директивы Host. Вот несколько наглядных примеров как делать нельзя: 
Host: 
www.myhost-.ru 
Host: 
www.-myhost.ru 
Host: 
www.myhost.ru:0 
Host: 
www.my_host.ru 
Host: .my-host.ru:8000 
Host: my-host.ru. 
Host: my..host.ru 
Host: 
www.myhost.ru/ 
Host: 
www.myhost.ru:8080/ 
Host: 
http://www.myhost.ru 
Host: 
www.mysi.te 
Host: 213.180.194.129 
Host: 
www.firsthost.ru,www.secondhost.ru 
Host: 
www.firsthost.ru www.secondhost.ru 
Пауки. 
Имена поисковых ботов не всегда соответствуют названия поисковых машин. 
Вот самые распространённые в Рунете поисковые боты. 
Рамблер - StackRambler 
Яндекс - Yandex 
Google - Googlebot 
MSN – msnbot 
Если Вы имеете доступ к логам сервера (например: последние посетители), то сможете узнать какие боты обходят Ваш сайт. Но чаще всего названия их бывают такими: Googlebot/2.1 (+
http://www.google.com/bot.html); Yandex/1.01.001; msnbot/1.0 (+
http://search.msn.com/msnbot.htm) и т.д. 
Но не стоит это имя сразу загонять в robots.txt 
Всё что пишется в имени бота после слэша – нам не нужно. В файл robots.txt вносится только первая часть. 
Если Вы хотите увидеть более полный список имён поисковых ботов, Вам следует прочитать следующую статью - Список имён поисковых роботов. 
Альтернативные методы. 
Файл robots.txt позволяет скрыть от глаз разных поисковых роботов разные файлы, а то и вообще все. Но есть и другие альтернативные способы, правда не всегда такие удобные, т.к. robots.txt позволяет делать это лишь изменением своего содержимого. 
Мета тег robots. 
<meta name="robots" content="index, follow"> - индексируется данная страница, робот идёт по ссылкам с этой страницы. 
<meta name="robots" content="noindex, follow"> - страница не индексируется, но робот идет дальше по ссылкам. 
<meta name="robots" content="index, nofollow"> - страница индексируется, но робот не идёт по ссылкам на другие страницы, т.е. он их не индексирует. 
<meta name="robots" content="noindex, nofollow"> - страница не индексируется, робот по ссылкам не идёт. Если поместить такой код на все страницы сайта – он не проиндексируется. 
<meta name="robots" content="none"> - идентичное последнему. Сайт не индексируется. 
Тег <noindex>, который позволяет не индексировать лишь определённый кусок кода страницы. 
Например: «хтмл-код хтмл-код <noindex>привет любимая :))</noindex> хтмл-код хтмл-код» 
Заключение. 
За более полной информацией обращайтесь на официальный сайт файла robotstxt.org 
Автор — Alexander (alexander@packpymku.net)
Вот еще пара статей которые следует прочитать: 
одна и 
вторая