Дмитрий Крюков, 30 июня 1998
Данный документ описывает общие
принципы, относящиеся только к
поисковой системе Rambler. Возможно,
некоторые положения этого документа
будут не соответствовать аналогичным
принципам других поисковых систем,
следовательно, использовать их нужно с
осторожностью.
Сами принципы достаточно просты.
Вот они:
- Прежде всего рекомендуем заполнить
регистрационную анкету в поисковой
системе Rambler, анкета находится по
адресу http://www.rambler.ru/new/add_site.shtml.
Это будет гарантией того, что по
крайней мере, эта анкета будет найдена
при соответствующем поиске, и по
ссылке из нее человек сможет попасть
на ваш сайт. Рекомендуется также
проделать это в случае, если ваши
странички располагаются на
зарубежных сайтах. Роботы Rambler
сканируют сайты, находящиеся в рамках
Содружества и игнорируют остальные
зарубежные сайты. Определение
принадлежности сайта производится по
формальному признаку - домену первого
уровня в URL сайта.
- В случае, если ваш сайт находится за
рубежом, но существенная часть сайта
содержит русскоязычные материалы, или
если ваш сайт находится в пределах
содружества, но входит в другие домены
первого уровня ( .com .org .net и пр.), вы
можете отослать письмо на адрес webmaster@stack.net
с просьбой включить ваш сайт в число
сканируемых. Наши сотрудники
рассмотрят эту просьбу и примут
решение о целесообразности такого
включения. Пожалуйста, не стоит
обращаться с подобными просьбами,
если ваши странички располагаются на
зарубежных публичных сайтах, таких
как: geocities, tripod, aol, xoom, netcom, hypermart и
других, подобных этим. Роботы Rambler не
сканируют эти сайты. Не следует также
обращаться с такими просьбами, если в
качестве URL вы укажите один из адресов-редиректоров,
например *.da.ru. Однако это не мешает вам
заполнить анкету - см. предыдущий
пункт.
- Роботы Rambler при сканировании
игнорируют поля <meta...keywords=...>.
Это связано с тем, что наша система
старается индексировать документ
таким, как есть, а не таким, как хочет
владелец. Не секрет, что зачастую
владельцы документов злоупотребляют
этими полями в документе, с тем, чтобы
их документы обязательно находились
по словам, при этом часто реальное
содержание документа не
соответствует данным критериям.
- Не следует также использовать
невидимый текст на страничке (т.е.
шрифты, цвет которых соответствует
цвету background). Комментарии в документе
роботы Rambler тоже не сканируют, по-этому
советуем использовать их по прямому
назначению. Помните, что каждый
комментарий увеличивает размер
вашего документа, а значит снижает
вероятность того, что в каком-нибудь
конкретном случае документ будет
просмотрен до конца. Обычно это делают
с той же целью, которая указана в
предыдущем пункте.
- Базовые понятия и ключевые слова для
данного сайта следует включать в HTML
тэги (в порядке значимости):
- <TITLE>
- <H1-..H6>
- <ADDRESS>
- <B>, <STRONG>
Чем чаще слово встречается в
комбинации этих полей, тем более
вероятно, что поисковая система Rambler
найдет ваш документ ближе к началу
списка результатов поиска. Конечно,
использование этих HTML тэгов должно
органично сочетаться с дизайном
вашего сайта. Кроме того, чем ближе
располагается поисковое слово к
началу документа, тем больше весовой
коэффициент данного слова.
- Не следует включать в список
желаемых ключевых слов
общеупотребительные, часто
встречающиеся слова, такие как сервер,
html, ru, страница и другие. Ваши слова
должны быть достаточно
информативными (в идеале уникальными).
Не следует также ориентироваться на
слова, состоящие из одних цифр. В
настоящий момент поисковая система
Rambler игнорирует такие слова. Возможно,
в будущем это будет изменено, но на
сегодня это именно так.
- С точки зрения поиска использование
фреймов в документе не приветствуется.
Это не означает, что роботы не умеют
сканировать фреймы. Это означает
только то, что отсканированный
отдельный фрейм не может дать
представление о целом документе.
Данное замечание не отностится к
случаю, когда фреймы в документе
используются исключительно для
удобств навигации. Роботы Rambler
прекрасно справляются с
конструкциями фреймов, однако мы
советуем включать в текст таких
документов HTML тэг <NOFRAMES> с
последующим описанием документа и
ссылками. Разумеется, это увеличит
размер странички, но будет являться
актом "доброй воли" к
пользователям текстовых браузеров (например
lynx) и поисковым машинам.
- Поисковый сервер Rambler автоматически
исключает из индекса слова,
встретившиеся в более чем 800 тыс.
документов. Такие слова не являются
информативными для поиска, и в 99,9%
случаев можно обойтись без них.
- При указании перекрестных ссылок в
документе будте предельно
внимательны, проверьте
работоспособность каждой ссылки,
иначе роботы не смогут добраться в
глубь дерева ваших документов.
Следует также иметь ввиду, что с точки
зрения HTML записи типа:
<a href="directory"....>> и
<a href="directory/"....>> (слэш в
конце href)
являются разными ссылками. Обычно при
запросе по первой ссылке робот
получит редирект на вторую, а значит
извелечет сам документ только на
следующем проходе при обращении к
Вашему серверу. Тем самым вы
замедляете время индексации вашего
сайта.
- Максимальный размер документа для
роботов Rambler составляет 200KB. Документы
большего размера отсекаются до
указанной величины. Кроме того,
считается "дурным тоном" делать
документы такого размера без особой
на то необходимости.
- Роботы Рамблер обрабатывают ссылки
типа <a htef="/cgi-bin/imagemap...">,
однако наряду со ссылкой такого вида
мы рекомендуем поместить в текст
документа конструкцию <map
name="name">. Это ускорит
индексацию документов, указанных в IMAGEMAP
и облегчит доступ к документам для
обычных браузеров.
- Часто изменяющиеся (динамические)
документы рекомендуется исключить из
списка индексируемых, т.к.
актуальность этих документов быстро
теряется. Осуществить это можно с
помощью стандартного для HTTP механизма
- посредством файла robots.txt в головной
директории вашего сайта.
- Части документа, не требующие по
вашему мнению индексации, можно
отделять в документе с помощью тэгов <index>....<noindex>
- При написании документов
внимательно следите за соблюдением
русского/латинского регистров. Часто
вместо русской буквы 'р' используют
латинскую 'p'. Некоторые подобные
ошибки индексатор исправляет, но не
все. Слова с подобными опечатками
теряют информативность. Старайтесь не
использовать символов переноса части
слова на другую строку '-'. Это
затрудняет определение того, является
ли начало следующей строки
продолжением слова или просто дефисом.
Помните, что браузер сам осуществляет
представление документа согласно
текущим установкам каждого
конкретного пользователя.
- Отнеситесь серьезно к планированию и
размещению вашего сайта, чтобы вам не
приходилось направлять письма с
просьбами переиндексировать Ваш сайт
администраторам поисковых систем в
связи с их переносом или полным
изменением структуры. Поисковые
машины - вешь достаточно инерционная
для этого.
Желаю успехов!
Источник: http://www.rambler.ru/
|