Как нам обустроить поиск научной информации в Сети

Браславский П.И.
Уральский государственный технический университет , Екатеринбург

1. Введение

Эффективность современных научных исследований напрямую зависит от качества их информационного обеспечения. Сегодня Интернет играет важную роль в этом процессе, предоставляя научному сообществу новые возможности. Глобальная сеть устраняет географические и административные барьеры для распространения информации, повышает оперативность научных публикаций, создает среду для эффективного обмена идеями, данными, результатами. Электронная форма придает информации новую операциональность, научные документы все больше ориентируются на мультимедиальное представление.

На заре своего развития Интеренет был сетью научного сообщества par excellence. Интернет был относительно замкнутой и вполне обозримой средой. С тех пор, как WorldWide Web в середине 90-х сделал сеть привлекательной для миллионов новых пользователей, ситуация кардинально измениалсь. Ученые стали лишь одной из многочисленных групп среди миллионов netizens.

Как и любая другая группа пользователей, ученые имеют свои специфические информационные потребности и критериии качества, предъявляемые к информационному поиску. Основные проблемы Интернета - проблемы размера и хаоса, - делают задачу поиска научной информации весьма актуальной.

В докладе делается обзор методов повышения эффективности поиска научной информации в глобальной сети Интернет. Под научной информацией мы понимаем всю совокупность научных текстов. Т.е., например, информацию о конференциях, грантах и стипендиях, персональные данные ученых мы считаем не научной, а сопутствующей информацией.

2. Решения на основе универсальных машин поиска

На сегодняшний день существует два основных инструмента поиска информации в Сети: полностью автоматические машины поиска (МП) и каталоги ресурсов с большой долей ручного труда. Эти универсальные средства могут использоваться (и используются) для поиска научной информации, однако результат не всегда удовлетворяет требованиям взыскательных пользователей.

С помощью каталогов удобно искать ресурс (сайт журнала, научного института, учебного заведения), но не документ (статью, реферат, книгу). К тому же, для качественной классификации научных ресурсов редактор каталога должен обладать обширными научными познаниями.

При сегодняшних темпах роста Интернета полностью автоматические методы имеют неоспоримое преимущество при поиске новой информации. Однако универсальные коммерческие МП ориентируются на "среднестатистического пользователя", что отражается в интерфейсе, языке запросов, механизмах индексирования ресурсов и ранжирования результатов поиска. Обычно это ведет к низкой точности поиска (большой доле шума) при направленном поиске научной информации.

2.1 Дополнительные возможности в серверной части

Универсальные МП стремятся индексировать как можно больше общедоступного содержания Web, в том числе - научную информацию. Поэтому специализированный научный поисковик можно построить на основе универсального индекса. Главная задача - научиться автоматически отделять научную информацию от остальной.

В качестве решения можно было бы предложить дополнительный интерфейс к индексу МП, ориентированный на поиск научной информации. Интерфейс может обладать специализированными средствами формирования запросов; форматом отображения и методом ранжирования результатов.

Одно из решений - автоматическая классификация текстовых документов по стилю [2]. На основе небольшого набора формальных параметров текста (доля глаголов и наречий, средняя длина слова, средняя длина предложения, доля слов общенаучной лексики) научные по стилю документы автоматически могут быть отделены от остальных. Опыты показывают вполне приемлемое качество классификации - примерно 80% правильно классифицированных случаев.

Признак "научности" документ может получать на этапе индексирования или при формировании отклика поисковой машины. Стилистические характеристики документа могут быть использованы при ранжировании результатов поиска [2].

Дополнительным решением может быть также список "научных источников" - список сайтов научных организаций, институтов, издательств. Отдельной задачей становится поддержка актуальности списка.

Для классифкации научных документов по областям знаний можно использовать специальные тезаурусы.

2.2 Средства формирования запросов на стороне клиента

Задачу повышения эффективности поиска научной информации с помощью универсальных МП можно попытаться решить на стороне пользователя - на этапе формулировки запросов.

Формулировка информационной потребности на языке запросов - наиболее сложный и трудно формализуемый этап поиска. В отличие от традиционной библиотеки, где можно обратиться за помощью к библиографу, при обращении к МП пользователь оказывается "один на один" с системой.

В [6] делается обзор средств автоматического уточнения запроса к МП на основе анализа текстовых документов, которые просматривает и редактирует пользователь.

Наше предложение состоит в использовании ассистентов формирования запросов на основе тезаурусов [3].

На наш взгляд, тезаурус может стать эффективным инструментом формирования запросов к универсальным МП и существенно повысить качество информационного поиска в специализированной тематической области при выполнении следующих условий:

- тезаурус отражает терминологию достаточно узкой научной области;
- в тезаурусе используется набор сильно дифференцированных семантических отношений;
- тезаурус независим по отношению к машине поиска.

Тезаурусы, отражающие терминологию различных предметных областей, могут располагаться на независимых серверах и выступать в качестве интерфейса к универсальным машинам поиска. Заметим, что Интернет в такой схеме выступает не только как хранилище информации, но и как среда для коммуникации и объединения усилий разработчиков и пользователей тезаурусов.

Эксперименты показывают, что с помощью такого ассистента формирования запросов можно тонко управлять как полнотой, так и точностью поиска (последнее для Интернета более актуально) [3].

3. Специализированные решения

В этом разделе дается краткий обзор некоторых специализированных решений в области поиска научной информации.

3.1 Специализированные машины поиска

Одино из решений - создание машин поиска, которые индексировали бы только научную информацию.

Примером специализированной "научной" МП является совместный проект издательства Elsevier Science и поисковика FAST Search and Transfer - Scirus. Проект был анонсирован весной 2001 года.

По информации разработчиков, Scirus индексирует только научную информацию, в том числе в форматах PDF (правда, еще раньше это начала делать МП Google) и PostScript, спускаясь по ссылкам глубже, чем это делают другие поисковые машины. Scirus индексирует как общедоступные ресурсы, так и ресурсы, для доступа к которым необходима аутентификация. При формулировке запроса пользователь может указать область знаний, тип документа (статья, домашняя станица ученого), тип источника (открытый, с ограничением доступа), период публикации.

Другой пример - система ResearchIndex [6], разработанная NEC Research Institute. Система индексирует научные статьи (в форматах PDF и PostScript) по информатике (computer science), строит собственный индекс цитирования. Этот индекс становится основой для установления связей между документами, их поиска и ранжирования.

3.2 Системы оповещения о научных публикациях

Развитием традиционных (ориентированных на бумажные источники) библиотечных и издательских технологий можно считать электронные библиотеки и электронные архивы публикаций.

Примером может служить хранилище научной информации по физике, математике и информатике (computer science) e-Print archive.

Основной недостаток таких систем - их изолированность, "интроверность". Это ведет к тому, что пользователь должен запускать поиск в каждой библиотеке (из известных ему). Результатом может быть как низкая полнота, так и дублирование информации.

Бороться с этими недостатками можно с помощью системы оповещения о научных публикациях. Такая система являются надстройкой над множеством электронных библиотек, их метакаталогом. Предпосылкой создания таких систем является то, что издатели (в широком смысле слова) оперативно информируют о своих новинках, публикуя их метаописания.

Важно подчеркнуть, что система не хранит и не индексирует документы, а работает с их метаописаниями в оперативном режиме.

Примером системы оповещения о научных публикациях может служить Hermes [1] (в статье [1] содержится также краткий обзор имеющихся аналогов).

Система состоит из трех блоков:

- подсистема сбора и обработки информации о новых публикациях;
- фильтр, который по ключевым словам пользователей классифицирует вновь поступившую информацию;
- подсистема оповещения пользователей.

Среди "узких мест" такого подхода можно выделить "словарную проблему" (vocabulary problem) - несовпадение ключевых слов фильтра и разных метаописаний, а также сложности с ранжированием списка документов.

4. Стандартизация - ключ к решению проблемы

При всем многообразии подходов в качестве ключевой можно выделить проблему стандартизации.

На наш взгляд, для успешного решения проблемы поиска научной информации в Сети необходимо выработать стандарты по следующим направлениям:

- формат метаописания электронного научного документа;
- формат представления электронного научного документа;
- система присвоения уникальных идентификаторов электронным научным документам;
- каталог (реестр) ссылок на электронные научные документы;
- защита авторского права;
- достоверность информации.

Недолгая история Интернета доказывает, что поводы для оптимизма есть: Сеть может быть хорошей средой для выработки стандартов.

Различные средства формирования метаописания для повышения эффективности поиска, в том числе Resource Description Framework (RDF), рассматриваются в статье [4]. Пример протокола для сбора метаданных - The Open Archives Initiative Protocol for Metadata Harvesting.

Сегодня не существует стандарта представления электронного научного документа. Чаще всего используются форматы PDF и HTML. Первый несет на себе слишком явную привязку к листу бумаги определенного формата, второй слишком "беден семантически", кроме того, плохо работает с формулами. Выход, вероятно, лежит в разработке XML-схемы (XML Schema) для научных документов, на основе которой можно получать как верстку для печати, так и представление для отображения на экране.

Люди и автоматизированные системы должны иметь возможность идентифицировать документ независимо от его расположения (URL), чтобы исключить дублирование информации и "мертвые ссылки". Т.е. нужна система присвоения уникальных идентификаторов и поддержка каталога ссылок на документы. Пример попытки решения этой проблемы - проект Digital Object Identifier и его развитие - CrossRef.

Легкость публикации любых материалов приводит к тому, что в Интернете научность часто подменяется наукообразием. Сопротивляться этому процессу можно с помощью автоматического построения индекса цитирования (см. упоминавшийся ResearchIndex) или с помощью системы делегирования доверия, например - на основе PGP (объяснение того, как функционирует делегирование доверия в системе с открытым ключом, содержится в [5]). PGP можно использовать также для защиты авторства с помощью электронной подписи. В случае распространения этих технологий традиционная система отзывов, рецензий и экспертиз получит новую форму, а личные контакты ученых, которые, казалось бы, должны постепенно исчезнуть по мере развития Сети, вновь приобретут большое значение.

5. Заключение

Как мы видим, проблема поиска научной информации имеет много путей решения. Но справиться с этой проблемой можно только в том случае, если каждый ученый будет "включен" в процесс обустройства глобального информационного пространства. Новая ситуация требует от каждого члена научного сообщества личной ответственности и заинтересованности.

Литература

Faensen D., Faulstich L., Schweppe H., Hinze A., Steidinger A. Hermes - a notification service for digital libraries.// ACM/IEEE Joint Conference on Digital Libaries, Roanoke, Virginia, USA, June 24-28 2001.
Браславский П.И. Использование стилистических параметров документа при поиске информации в Internet: Доклады VI рабочего совещания по электронным публикациям - EL-PUB-2001, Новосибирск, Академгородок, ИВТ СО РАН, 25-27 апреля 2001 г.
Браславский П.И. Построение запросов к машине поиска Internet с помощью тезауруса //Материалы третьей Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции". Петрозаводск, 11-13 сентября 2001 года. В печати.
Жигалов В. Как нам обустроить поиск в Сети?//Открытые системы. - 2000. - №12. - С.53-61.
Зиммерманн Ф.Р. PGP: концепция безопасности и уязвимые места // Компьютерра, - 1997. - №48 (225). - С.36-51.
Лоуренс С. Контекст при поиске в Web //Открытие системы, - 2000. - №12. - С. 62-66.

Ваши комментарии

[Головная страница]
[Конференции]
[СО РАН]

© 2001, Сибирское отделение Российской академии наук, Новосибирск
© 2001, Объединенный институт информатики СО РАН, Новосибирск
© 2001, Институт вычислительных технологий СО РАН, Новосибирск
© 2001, Институт систем информатики СО РАН, Новосибирск
© 2001, Институт математики СО РАН, Новосибирск
© 2001, Институт цитологии и генетики СО РАН, Новосибирск
© 2001, Институт вычислительной математики и математической геофизики СО РАН, Новосибирск
© 2001, Новосибирский государственный университет
Дата последней модификации Tuesday, 11-Sep-2001 16:40:37 NOVST