+7(983)178-57-68

Новые горизонты успешного бизнеса!

Главная Посчитать и заказатьОставить заявку Статьи Отзывы Контакты

Тег NOINDEX и файл robots.txt

Тег <noindex></noindex> для чего он нужен?


Данный тег позволяет запретить поисковому роботу индексировать какую-то часть страницы.

Зачем нужен файл robots.txt?



Robots.txt

— текстовый файл, расположенный на сайте, который предназначен для роботов поисковых систем. В этом файле веб-мастер может указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы по отдельности.

Создаем файл robots.txt и пишем туда следующее:
1 строка - это User-agent:*
звездочка означает, что этот текстовый файл предназначен для всех поисковиков.

Директивы Disallow и Allow
Чтобы запретить доступ робота к некоторым частям сайта или сайту целиком, используйте директиву Disallow
User-agent:*
# комментарий в robots.txt
# блокирует доступ ко всему сайту
Disallow: /
User-agent:*
# блокирует доступ к страницам
#начинающимся с /primer
Disallow: /primer
Чтобы разрешить доступ робота к некоторым частям сайта или сайту целиком, используйте директиву Allow
User-agent:*
Allow: /primer
Использование спецсимволов * и $.
User-agent:*
# запрещает /primer/default.html
# и /primer/clock/first.html
Disallow: /primer/*.html

# запрещает не только /primer,
# но и /unuse/primer
Disallow: /*private

# запрещает /primer,
# но не запрещает /primer.html
Disallow: /example$
Директива Sitemap.
Если вы используете описание структуры вашего сайта в формате Sitemap.xml, и хотите, чтобы робот узнал о ней, укажите путь к Sitemap.xml в качестве параметра директивы Sitemap (если файлов несколько, укажите все).
User-agent:*
Sitemap: http://www.net-f.ru/Sitemap.xml
Директива Host.
Если у вашего сайта есть зеркала, специальный робот зеркальщик определит их и сформирует группу зеркал вашего сайта. В поиске будет участвовать только главное зеркало. Вы можете указать его у всех зеркал при помощи robots.txt, используя директиву Host и определив в качестве ее параметра имя главного зеркала. Директива Host не гарантирует выбор указанного главного зеркала, тем не менее, алгоритм при принятии решения учитывает ее с высоким приоритетом.
User-Agent:*
Disallow: /primer/
Disallow: /form.php
Host: www.net-f.ru
Важно: в целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву Host необходимо добавлять в группе, начинающейся с записи User-Agent, непосредственно после директив Disallow (Allow). Аргументом директивы Host является доменное имя с номером порта (80 по умолчанию), отделенным двоеточием.
#Пример корректно составленного robots.txt, при обработке 
#которого директива Host учитывается
User-Agent: *
Disallow:
Host: www.net-f.ru
Директива Crawl-delay
Crawl-delay позволяет задать поисковому роботу минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей.
User-agent:*
Disallow: /primer/
# задает таймаут в 4.5 секунды
Crawl-delay: 4.5
Директива Clean-param
Если адреса страниц вашего сайта содержат динамические параметры, которые не влияют на их содержимое (например: идентификаторы сессий, пользователей, рефереров и т.п.), вы можете описать их при помощи директивы Clean-param.

Например, на сайте есть страницы:
www.net-f.ru/some_dir/get_book.pl?ref=site_1&book_id=123
www.net-f.ru/some_dir/get_book.pl?ref=site_2&book_id=123
www.net-f.ru/some_dir/get_book.pl?ref=site_3&book_id=123

параметр ref= используется только для того, чтобы отследить с какого ресурса был сделан запрос и не меняет содержимое, по всем трем адресам будет показана одна и та же страница с книгой book_id=123. Тогда, если в robots.txt указать:
User-agent:*
Disallow:
Clean-param: ref /some_dir/get_book.pl
Робот сведет все адреса страницы к одному.
Используйте эти два инструмента, и тем самым Вы увеличите скорость индексации и качество индексации Вашего сайта

По материалам сайта http://help.yandex.ru/webmaster/?id=996567


Остались вопросы? Спрашивайте!


Понравилась статья? Расскажи другим :)

Опубликовано: | Просмотров: 3391