Технология поиска информации в Интернет

Сегодня Интернет объединяет множество разных сетей, миллионы компьютеров, около 300 миллионов пользователей (данные от Robert Orenstein) всех континентов и, по разным оценкам, число таких пользователей увеличивается на 15-80% ежегодно. Можно выделить два основных направления в использовании Интернет в бизнесе. Это оперативный доступ к поистине необозримым кладезям информации по любой тематике (на сотнях тысяч информационных серверов), поиск и интерактивное общение с партнерами, практически в любой специализации и географическом расположении. Как сориентироваться в столь масштабном информационном пространстве? Для этого существуют специализированные поисковые сервера. Их можно разделить на тематические каталоги, роботы индексов (поисковые машины), системы мета поиска. Также, для поиска необходимой информации в Интернет весьма полезны системы поиска в конференциях Usenet и службы поиска людей. 

Тематические каталоги

Наиболее популярным во всем мире признан тематический каталог Yahoo! (http://www.yahoo.com). Он представляет собой огромную базу данных URL-адресов сайтов самой различной тематики. Yahoo!  предлагает вам воспользоваться  иерархическим деревом при поиске информации. Т.е. вы выбираете сначала общую тематику, удовлетворяющую вашему запросу информации, и далее конкретизируете, следуя подсказкам каталога. В конечно результате вы получаете список сайтов, содержащих информацию, соответствующую вашему запросу. На Yahoo! вы также можете пойти и по другому пути. Проанализируйте предполагаемое содержание запрашиваемой информации и выберите ключевые слова, которые обязательно встретятся в интересующих вас материалах или их заголовках. Набираете эти слова через пробел в строке ввода на главной странице Yahoo! и нажимаете Enter. Система попытается сама подобрать интересующую вас информацию. Так как Yahoo!  система англоязычная, то достаточно удобно использовать Интернет-переводчик, такой как "Сократ Интернет" (http://www.arsenal.ru).

Если же вы ищите информацию заведомо русскоязычную, то имеет смысл использовать российские  и местные белорусские каталоги. Принцип работы с ними идентичен, тому который мы рассмотрели на примере с Yahoo!. Здесь стоит отметить первый российский каталог Russia on the Net  (http://www.ru), один из крупнейших русскоязычных каталогов List.RU (http://www.list.ru/), российский вариант Yahoo! (http://www.yahoo.ru). Имеет место, также, каталог "Созвездие Интернет", содержащий только избранные (заявлено как самые интересные) ресурсы. Среди белорусских каталогов стоит отметить наш национальный Yahoo! (http://unclesam.hypermart.net), новый быстроразвивающийся сервис 09 (http://www.09.open.by),   сервер Unibel (http://www.unibel.by) и небольшую базу данных без возможности поиска Data (http://www.data.minsk.by). Говоря о базах данных, нельзя не вспомнить замечательный российский проект "Желтые страницы Интернет" (http://www.piter-press.ru/yp), где как и в одноименной книге представлена детальная информация о самых разных ресурсах Интернет.

В бизнесе также понадобятся каталоги предприятий и каталоги товаров и услуг. Пожалуй, самый  крупный каталог предприятий СНГ Партнер (http://trifle.net/cis). В Интернет представлен и популярный белорусский каталог ТелеМедиа - "Бизнес Беларусь 99"  (http://www.telemedia.minsk.by). Есть и другие белорусские каталоги "Каталог белорусских товаров и услуг" (http://www.open.by/abase), "Информационно-поисковая система товаров и производителей РБ на сервере Могилевской области" (http://enterprises.res.mogilev.by/EnterLogin.asp?Lang=R) и другие.

Роботы индексов или поисковые машины

Поисковые машины устроены несколько иначе. По сути это сервер с огромной базой данных URL-адресов, который автоматически обращается к страницам WWW по всем этим адресам, изучает содержимое этих страниц, формирует и прописывает ключевые слова со страниц в свою базу данных (индексирует страницы). Более того, этот сервер обращается по всем встречаемым на страницах ссылками и переходя к новым страницам, проделывает с ними тоже самое. Так как почти любая страница WWW имеет множество ссылок на другие страницы, то при подобной работе поисковая машина в конечном результате теоретически может обойти все сайты в Интернет. Самая популярная поисковая машина AltaVista (http://www.altavista.com) содержит 11 миллиардов слов, извлеченных из 30 миллионов WWW-страниц. Как пользоваться этим сервисом? Необходимо продумать строку запроса информации (не более чем 5 слов), как в случае с Yahoo! и также набрать ее в поле ввода. Над кнопкой Search (Поиск) находится ниспадающее меню с выбором языка. Перед нажатием Enter или кнопки Search необходимо выбрать язык представления информации. Кроме того, в запрос информации можно включать специальный символ *, расширяющий диапазон поиска. Скажем, что бы Altavista могла найти не только все вхождения слова "легкая", но слова "легкую", "легкой" и т.д., в запросе надо писать "легк**". Т.е. изменяющиеся буквы окончания заменяем на символ *.

Как и предыдущем случае, для поиска в русскоязычном Интернет Altavista не очень подходит. Если на запрос "Light industry" Altavista формирует список из  2917 URL-адресов, то по запросу "Легкая промышленность" появляется список ссылок на всего 9 сайтов. Наиболее развитый сервис поиска русскоязычной информации предоставляет сервер Яndex (http://www.yandex.ru). В Яndex можно просто написать по-русски фразу, описывающую то, что вы хотите найти. Система самостоятельно проанализирует и обработает ваш запрос, а затем постарается найти все, что относится к заданной теме.  Ну а в том случае, если нужных документов не обнаружится, можно продолжить поиск через AltaVista, куда автоматически передается уже обработанный системой запрос. Но до передачи запроса AltavVista вряд ли дойдет, так как база Яndex содержит порядка 2 000 000 документов и постоянно обновляется. Проблема больше состоит в том, что поисковая машина в результате вашего запроса генерирует гигантский список адресов URL с короткими описаниями. Яndex позволяет конкретизировать ваш запрос для сокращения этого списка до разумных пределов. Вы можете на запрос либо набрать фразу по аналогии с предыдущими системами, либо, используя, специальные операторы, составить строку, поясняющую Яndex, каким вашим требованиям должна отвечать, интересующая вас информация. Ниже приведены некоторые из операторов языка запросов Яndex.

Синтаксис запроса Яndex

пробел или &

логическое И (краткое - в пределах одного абзаца)

Пример: легкая промышленность

Результат: все документы, где в пределах одного абзаца встречаются слова "легкая" и "промышленность"

&&

логическое И (в пределах документа)

Пример: легкая&&промышленность

Результат: все документы, где встречаются слова "легкая" и "промышленность"

, или |

логическое ИЛИ

Пример: легкая,промышленность

Результат: все документы, где встречается либо слово "легкая", либо слово "промышленность"

~

бинарный оператор И НЕ (в пределах одного абзаца)

Пример: производство~газета

Результат: все документы, где в пределах одного абзаца встречается слово "производство", но не в словосочетании "газета производство"

~~

бинарный оператор И НЕ (в пределах документа)

Пример: производство~газета

Результат: все документы, где встречается слово "производство", но не в словосочетании "газета производство"

( )

группирование слов

Пример: (швейное&&производство)~газета

Результат: все документы, где встречаются слова "швейное" и "производство", но не в словосочетании со словом "газета"

/(число)

расстояние в словах, где "число" - число слов между словами в запросе плюс единица.

Пример: швейное/1 производство

Результат: все документы, где встречается словосочетание "швейное производство"

Подробней о языке запросов Яndex можно прочесть в статье "Подробное описание языка запросов поисковой системы Яndex" (http://bforum.virtualave.net/yandex-request.htm).

Стоит вспомнить о еще одной популярной российской поисковой машине Rambler (http://www.rambler.ru). У этого сервера еще более полная база данных адресов URL, чем у Яndex. Отличительной чертой Rambler является то, что этот сервер ведет статистику посещаемости ссылок из собственной базы данных. Вы всегда можете зайти в раздел "Рейтинг" на главной странице Rambler и увидеть содержимое тематического каталога, отсортированного по убыванию числа посещений сайтов и следовательно их популярности. Тем самым отсекаются явные аутсайдеры и вы не тратите на них свое время. Rambler также как и Yandex, позволяет, кроме простого запроса, запрос с языком запросов. Поддерживаются те же логические операторы И, ИЛИ, НЕ, метасимвол * (аналогично расширяющему диапазон запроса символу * в AltaVista), коэффициентные символы + и -, для увеличения или уменьшения значимости вводимых в запрос слов.

Стоит также отметить прочие русскоязычные поисковые машины Апорт (http://www.aport.ru) и АУ (http://www.au.ru).

Поисковые машины и тематические каталоги сегодня имеют много общего. У каталогов присутствует возможность поиска информации по строке запроса с использованием логических операторов, а поисковые машины содержат свои собственные тематические каталоги. И тем не менее лучше всего эти поисковые сервисы проявляют себя в своей первоначальной категории.

Системы мета поиска

Читая обо всех перечисленных поисковых службах, по неволи задумаешься: "а если для поиска необходимой мне информации не достаточно одной поисковой службы, то неужели мне придется входить на все здесь перечисленные сервера и каждый раз повторять один и тот же запрос?!". Наиболее качественный результат как раз будет именно при таком подходе. Но можно, исходя из экономии времени и денег, воспользоваться системами мета поиска. Наиболее популярная в мире система такого класса  Search.com (http://www.search.com), но если мы работаем преимущественно с русскоязычными документами, то можно использовать Savvy Search (http://guaraldi.cs.colostate.edu:2000/form?lang=russian). Это достаточно мощная система отсылающая ваш запрос на 13 крупнейших поисковых машин (в том числе и российских) и возвращающая вам их отчеты. Другая российская система мета поиска "Следопыт" (http://www.medialingua.ru/www/Wwwsearc.htm) работает только с пятью англоязычными поисковыми машинами и одной русскоязычной, но интересна тем, что переводит ваш русскоязычный запрос на английский язык для англоязычных поисковых машин.

Также существуют так называемые мультипоисковые страницы:

"Все в одном" (http://www.tpi.ac.ru/~mike/search/index.htm);

Search (http://www.informika.ru/windows/intern/poisk/main.html);

БКФ Поиск (http:/bforum.virtualave.net/index09.htm) и другие.

Эти сервера не умеют посылать запросы и получать отчеты от поисковых служб как системы мета поиска. Мультипоисковые страницы загружают во множестве окон поисковые службы и передают им ваш запрос. К тому же  такие системы работают не стабильно.

 

Системы поиска в конференциях Usenet.

Во всем мире считается самым лучшим сервисом для поиска информации в конференциях Usenet сервер DejaNews (http://www.dejanews.com). Среди русскоязычных выделяется сервер RusNews (http://news.corvis.ru), являющийся также новостным сервером, содержащим более 2000 новостных групп. Точно также как и в других поисковых службах мы набираем строку запроса, а сервер нам формирует список конференций, содержащих наши ключевые слова. Далее надо подписаться на отобранные нами конференции в нашей программе работы с новостями.  Также имеет место аналогичный российский сервер ТЕЛА-поиск (http://tela.dux.ru/news.html).

 

Службы поиска людей

У вас появилась возможность работать с электронной почтой, но вы не знаете адресов электронной почты партнеров вашей организации. Благодаря, так называемым, службам поиска людей в Интернет, вы можете указав ФИО вашего оппонента теоретически вы можете получить его адрес электронной почты и URL-адрес. Почему теоретически? Дело в том, что системы поиска людей, в основном берут информацию о электронных адресах из открытых источников, таких как конференции Usenet. Где гарантия, что ваши партнеры участвуют в этих конференциях? И тем не менее рассмотрим некоторые службы поиска людей. В первую очередь, традиционно, о самой популярной англоязычной системе  Four 11 (http://www.four11.com). Это действительно большой сервер - его база данных содержит порядка 6 000 000 адресов. Среди русскоязычных служб можно выделить Э-Рос (http://www.dubna.ru/eros) и Интермап (http://www.botik.ru/intermap/welcome.win0-abs.html).  

 

Итоги

Подводя итог, можно сказать, что единой оптимальной схемы поиска в Интернет не существует. В зависимости от специфика необходимой вам информации, для ее поиска вы должны использовать соответствующие поисковые службы. В принципе, конечно, можно всегда пользовать какой-нибудь одной поисковой системой, например Rambler, но чем грамотнее подобраны поисковые службы и составлен запрос на поиск информации, тем качественнее будут результаты поиска. А в бизнесе качество информации играет далеко не последнюю роль.

 

10.04.99
Дмитрий Шейко

Бобруйский Компьютерный Форум
WWW: http://bforum.virtualave.net
E-Mail: office@amber.belhard.com
E-Mail: bcf@mail.ru
ICQ: 35325827


Hosted by uCoz