Приручаем поисковых роботов. Crawl-delay в robots.txt

Все пользователи сети интернет любят поисковые системы. Они позволяют им ориентировать огромных пространствах сети, помогают найти именно то что им необходимо. Но для владельцев интернет сайтов они могут также стать и головной болью, т.к. поисковые роботы заходя на сайт, имеют одну единственную цель: проиндексировать ваш сайт как можно быстрее и добавить в свою базу данных. Почему головной болью? Да потому что поисковые роботы делают свою работу достаточно быстро и усердно, скачивая страницы вашего сайта с большой интенсивностью. Если на вашем 5 страниц, то нет проблем, все проходит быстро и безболезненно. А если тысячи, десятки тысяч?

( Читать дальше )

robots.txt для Datalife Engine

В этой записи я расскажу о том, как сделать правильный robots.txt для своего сайта на Даталайф.

Откуда проблемы?
Имея кучу сайтов на DLE, сталкиваешься с одинаковыми проблемами: к примеру, Яндекс проиндексировал печатные версии страниц (url вида print:…), конечно же, Сапа не видит их. А Яндексу они приятнее, так как всякого мусора на них меньше: только контент. Или же Яндекс индексирует ссылки вида “my-dle-site/user/ya-spamer”, на которых куча внешних ссылок в профилях и никакого контента.
Вообще, причины вспомнить о robots.txt могут быть разными, к примеру, в этом заветном файле можно передать Sitemap Google’у и Яндексу не заходя в панель вебмастера.

( Читать дальше )
  • +1
  • 25 января 2009, 12:39
  • inter
  • 4