Фев 14

26. Создаем блог: файл robots.txt


правильный robots.txtСпонсор поста: На сайте rapidprogs.ru можно skype скачать бесплатно, а также последние версии других, не менее полезных для каждодневного использования программ.

C момента переноса WordPress блога на хостинг прошло довольно много времени, за которое мы успели много чего сделать. И тут я вспомнил, что забыл рассказать про одну очень важную вещь. А именно – про файл robots.txt. Создается он всего за пару минут и несет большую практическую ценность для блога. По сути, это инструкция для поисковых роботов, как им нужно себя вести на сайте или блоге. Перед тем как зайти на сайт бот проверяет, есть ли на сервере указанный файл. Если есть, тогда он индексирует только то, что разрешено правилами. Если нет, лазит кругом, где только возможно, как кот по новой квартире. От создания правильного robots.txt зависит, насколько хорошо будет индексироваться ваш сайт или блог. Ведь всегда есть страницы, разделы, директории или файлы, которые нежелательны для индексации. К примеру, страница авторизации, теги, комментарии, фиды т.п. Иногда бывает, что на блоге встречается контент, который дублируется. Понятное дело, что его нужно закрывать от поисковых ботов, чтобы индексировалась лишь нужная информация. К тому же, бесцельное блуждание по всему блогу создает дополнительную нагрузку, что вовсе не идет ему на пользу.

В сети можно встретить множество примеров файла robots.txt . К сожалению, одного единственного идеального не существует. Самым лучшим вариантом будет составить его согласно правилам, установленным главными поисковыми системами. К примеру, вот рекомендации по составлению robots.txt от Яндекса, а вот от Гугл.
Если вам интересно, то можете самостоятельно ознакомиться с вышеуказанной информацией и не ее основе создать свой файл ограничений. Или же взять за основу тот, который использую я.

Для этого создаем на компьютере текстовый файл robots.txt. Сразу обращаю внимание, что «robots» это название, а «txt» – расширение. А то некоторые пишут полностью все в названии.
После чего добавляем в него следующий код:

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments

User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Host: вашдомен.ru
Sitemap: http://вашдомен.ru/sitemap.xml

«User-agent: *» означает, что правила, которые идут после него относятся ко всем поисковым роботам. Дальше идут директивы «Disallow:», которые закрывают от индексации страницу входа в админку, страницу авторизации, статистику, фиды, трекбеки и т.д. После всех директив ставиться пропуск строки, который означает, что блок правил для поисковых ботов закончен. Потом идет новый блок, но уже конкретно для Яндекс-бота. Вы также можете встретить в некоторых robots.txt еще такую директиву как «Crawl-delay:». Она указывает боту, какой нужно делать перерыв между загрузками страниц. Если это значение будет очень низким, то робот будет создавать высокую нагрузку на блог безостановочными переходами. А если учесть, что они редко ходят поодиночке … 🙂 Большое тоже ставить не нужно, поскольку это плохо скажется на индексации блога. Стоит также брать во внимание, что Яндекс-бот вообще не особо любит, когда его ограничивают временными рамками, так-что если вам попадется такая строчка, то лучше ее попросту убрать. Ну и наконец «Sitemap:». Как вы уже, наверное, догадались, данная строчка указывает путь к карте сайта, чтобы роботу было сразу понятно, где ее искать.

Итак, сохраняем наш файл правил и заливаем в корневую папку «public_html/» на сервере. Вот и все. Теперь поисковые боты будут знать, что нужно индексировать на блоге, а на что не стоит тратить время. Как видите, все очень просто.


Если вам понравилась статья, вы можете подписаться на RSS, чтобы следить за новыми публикациями!

Вы также можете добавить статью в следующие социальные сервисы:

Написал DCDanton \\ теги: ,


4 комментария к “26. Создаем блог: файл robots.txt”

  1. 1. Ника пишет:

    очень хорошо все написано, для меня составить robots.txt всегда составляло проблему

  2. 2. Владимир пишет:

    Спасибо!

    Долго не мог найти толковой информации про robots.txt .

    Yandex почему-то просто не видел его на моем сайте.

    Теперь все OK.

  3. 3. Аня пишет:

    Спасибо за информфцию, буду знать как правильно это делается.

  4. 4. Миронов Семен пишет:

    Полезная инфа. Я так понял можно этот код скопировать и подставить только свои значения?

Highslide for Wordpress Plugin Проверка сайта Клуб Инвесторов. Обмен ссылками.