Неправильно обрабатывается ошибка 404
"Not found"
Проверьте, что делают Ваши скрипты в
случае ошибок. Если скрипт сообщает об
ошибке и при этом выдает код нормального
завершения 200, то сообщение будет
проиндексировано. Если же Ваш скрипт
вернет HTTP код 404, это сообщение об ошибке
проиндексировано не будет.
Это относится и к обычным документам.
Некоторые сервера настроены таким
образом, что они в случае ошибки
отсылают сообщение с кодом нормального
завершения 200. Это мешает роботу удалить
ссылку на страницу в базе данных. Любой
современный web-сервер позволяет
изменять стандартные сообщения об
ошибках и отсылать их с правильным кодом
ошибки.
Спам, или не нужно обманывать
пользователя
Спам - это заголовки и ключевые слова,
сдобренные большим количеством слов из
самых популярных запросов, большие
массивы текста, "написанные" на
странице цветом фона или очень мелким
шрифтом, а также многие другие уловки с
целью привлечения пользователя на свои
страницы обманом.
Их не стоит применять по двум причинам.
Во-первых, это не добавляет славы
создателю страниц и вызывает
естественное раздражение пользователей.
Во-вторых, Яndex отслеживает такие
ненормальные изменения и снижает место
документа на странице результатов.
Кроме этого, спам увеличивает размер
документа и, следовательно, уменьшает
контрастность слов в нем, что также
влияет на место документа в списке
найденного. В случаях злостного
использования спама администрация Яndex
может исключить такие страницы и сайты
из базы.
Страницы со временем перенаправления на
другие страницы (redirect) равным нулю также
исключаются из индексирования.
Неправильные даты
На Яndex работает поиск и сортировка по
датам, но в 20% случаев серверы не выдают
правильную дату изменения файлов.
Настройте свой сервер правильно. Не
лишайте пользователя дополнительной
информации и воспользуйтесь
возможностью корректно показать свои
страницы при поиске по датам.
Индексирование одинаковых
документов в разных кодировках
Много ресурсов расходуется впустую при
индексации одних и тех же документов,
выдаваемых web-серверами в разных
кодировках. При этом русские поисковые
системы все равно держат в базах
документы в одной из кодировок.
Рекомендуется запрещать для
индексирования все кодировки, кроме
одной. Если кодировки выдаются по портам
серверам, то надо выдавать на разных
портах (серверах) разный robots.txt. Это
значит, во всех портах/серверах, кроме
основного, должно быть написано
disallow: /
Если кодировки выдаются, к примеру, по
директориям, то надо сделать один файл
robots.txt, в котором будет написано
disallow: /alt
disallow: /mac
disallow: /koi
Индексирование одного сайта на
разных серверах
Эта проблема возникает, когда у сервера
существуют зеркала, и/или кодировки
делаются префиксами в имени хоста,
например, для хоста www.chto-to.ru:
win.chto-to.ru, koi-www.chto-to.ru, wwwmac.chto-to.ru и т.д.
Робот не в состоянии самостоятельно
определить "главный" адрес.
Единственное, что он может делать (и
делает) - это определить, что два
документа совпадают с точностью до
кодировок, и проиндексировать только
один из них.
Таким образом, может оказаться, что
разные части Вашего сайта
проиндексированы на разных хостах. Если
Вы хотите, чтобы весь Ваш сайт был
проиндексирован по одному адресу (хосту),
запретите индексацию остальных, задав
соответствующий файл robots.txt. Через
некоторое время (по мере обхода роботом)
все проиндексированные документы будут
ссылаться на этот хост.
Источник: http://www.yandex.ru/