Поиск в Интернет

На протяжении последних лет постоянно обсуждается вопрос о том, каким образом компьютеризованное человечество сумеет справиться с избытком информации, льющейся из Интернета: каким образом можно отобрать нужные материалы? Количество документов в Паутине (WWW) превышает сотни миллионов, и никакой жизни человеческой не хватит, чтобы все их просмотреть.

В настоящий момент существует большое число поисковых роботов (персонализованные программы-агенты), которые пытаются исследовать Интернет в поисках нужных материалов. К сожалению эти агенты пока не справляются с возложенной на них задачей: не просто выуживать из сети все документы, содержащие определенный набор ключевых слов, но и оценивать эти документы по новизне, содержательности, информативности.

Сегодня в мировой Паутине, перешагнувшей уже отметку в 100 миллионов адресов, интеллектуальных программ-агентов пока нет и поиском нужных ресурсов занимаемся мы сами, когда путешествуем по Сети. А помощь в этом вопросе оказывают нам поисковые машины и каталоги - такие, как Alta Vista (Digital), Archie (NCSA), InfoSeek, Lycos, WebCrawler Searching, Open Text Index, WWWW - World Wide Web Worm, W3 Search Engines (CUI), Excite, Hotbot, Yahoo и др. (общее их число не поддается оценке).

См. список поисковых машин сети Internet.

Поисковые машины устроены по сходному принципу: копии всех документов, известных этим серверам, хранятся на локальном диске в формате индексированного файла. Когда мы просим Alta Vista найти документы, содержащие слово, информация, то поиск ведется в базе местной машины, а в ответ на наш запрос выдается несколько десятков тысяч адресов.

Главная задача автора гипертекстового документа, если он хочет донести свое послание до читателя - "отметиться" наиболее удачным способом во каталогах, доступных как для поисковых машин, так и для потенциального читателя.

Для этой цели в набор команд языка HTML включена специальная группа инструкций META, предназначенных в основном для описания и индексирования документа поисковыми машинами.

Команды META находятся в "заголовке" документа - внутри блока

<HEAD>
...
</HEAD>
Наибольшее значение для поисковых машин имеют два значения META: это NAME="description" (описание) и NAME="keywords" (ключевые слова).

Синтаксис :

<META NAME="description" CONTENT="Эта страница посвящена проблемам индексирования
гипертекстовых документов WWW с помощью инструкций МЕТА".>

<META NAME="keywords" CONTENT="META, HTML, WWW, Web, паутина, поиск, определение,
рекомендации, примеры использования, учебник, руководство, информация, справка,
Netscape Navigator, Microsoft Internet Explorer">
Многие роботы, индексирующие документы HTML, пользуются описанием, которые они находят у вас в инструкции "description", при выводе информации о вашей странице в результатах поиска. Если этой инструкции в документе не окажется, то поисковая машина вернет информацию о вашей странице в виде 256 (или 512) первых символов найденной страницы, за вычетом команд HTML. Возможность контролировать, какую информацию о вашей странице получит пользователь, нашедший ее по ключевому слову в поисковой машине, позволяет вам повысить свои шансы на правильную идентификацию вашей страницы.

Основные рекомендации (для улучшения работы поисковых машин):

Содержание элемента title, желательно, не должно превышать 60 знаков.
В значении атрибута description не желательно наличие более 200 знаков.
В значении атрибута keywords не должно быть более 1000 знаков. 

Большинство HTML документов составлено так, что в начале у них стоят однотипные приветственные фразы или советы по навигации сервера, а вовсе не краткое описание данной страницы. Если пользователь сделал поиск, скажем, на слово "информация", то среди десятков тысяч документов, адреса которых вернула ему машина, в доброй половине текстов это слово встречается случайно, походя, между делом, при объяснении совершенно других тем и вопросов. Наличие МЕТА-описания позволяет пользователю поисковой машины убедиться в том, что ваша страница посвящена именно интересующей его проблематике.

Ключевые слова позволяют повысить "релевантность" поиска. Из ста тысяч страниц, содержащих слово "информация", от силы в тысяче мы найдем его определение. Но и там, где оно содержится, само по себе слово "определение" будет совершенно необязательно присутствовать. Если мы хотим, чтобы всякий пользователь, желающий получить определение "информации", попадал именно на нашу страницу, то мы включим слово "определение" в набор ключевых слов, в соответствующей команде МЕТА.

Помимо двух рассмотренных в нашей заметке видов инструкций МЕТА - description и keywords - эта команда имеет и другие применения:


ИВТ Федотов А.М. Введение в Internet
Документация по Интернет технологиям

Начало создания курса: Mondy, 19-Aug-1996 10:12:15 NOVST
Дата последней модификации: Monday, 01-Jul-2002 20:17:53 NOVST
© 1996 - 2001, А.М.Федотов
© 1996 - 2001, Институт вычислительных технологий СО РАН, Новосибирск