Конференции ИВТ СО РАН


IX рабочее совещание по электронным публикациям
"EL-Pub2004” (с участием иностранных ученых)

23-25 сентября, Академгородок, Новосибирск

Тезисы докладов


Подходы к построению и реализация специализированной метапоисковой машины ProThes

Браславский П.И., Шишкин А.С.

ИМАШ УрО РАН (Екатеринбург)

Благодаря росту объемов информации, доступной в интернете, все более востребованными становятся универсальные системы поиска информации (Яндекс, Google, Alltheweb и др.). Стремясь соответствовать ожиданиям пользователей, машины поиска (МП) демонстрируют высокую производительность и впечатляющий уровень охвата наполнения Сети. Однако эти сервисы нацелены на максимально широкую аудиторию, отчего иногда проигрывают пользователи со специфическими информационными потребностями.

Разрабатываемая нами система ProThes нацелена на устранение дисбаланса между универсальностью машин поиска и специфичностью информационных потребностей различных групп пользователей. ProThes объединяет несколько подходов: метапоиск, графический интерфейс пользователя, использование тезауруса предметной области для формулировки и уточнения информационных запросов. В докладе освещается архитектура и методика построения системы ProThes.

Система построена на основе архитектуры клиент-сервер. Для реализации серверной части системы была выбрана технология Java 2 Enterprise Edition. В качестве сервера приложений используется Apache Tomcat, распространяемый по лицензии GPL. Клиентская часть реализована в виде java applet, что обеспечивает необходимую интерактивность и, в то же время, независимость от платформы. Обмен данными между клиентом и сервером происходит по протоколу SOAP, для чего используется свободно распространяемая библиотека Apache SOAP. Серверная часть системы реализована в виде двух независимых веб-служб: служба, отвечающая за работу клиента с тезаурусом, и служба, обеспечивающая обработку запросов к поисковым машинам интернета. Разделение на две службы произведено с целью оптимизации скорости работы системы и упрощения ее реализации.

Первая веб-служба предоставляет клиенту интерфейс для работы с набором тезаурусов, хранящихся на сервере. Исходный формат тезауруса – XML, однако мы отказались от внутреннего представления тезауруса в виде XML DOM в пользу специализированной объектной модели. Такое решение позволяет повысить скорость операций выборки подструктур тезауруса (наборов связанных концепций). Поскольку набор тезаурусов и сами тезаурусы изменяются редко, то дальнейшим логичным шагом к повышению производительности является кэширование тезауруса на сервере в сериализованном виде.

ProThes рассчитан на параллельную работу нескольких клиентов, поэтому необходимо обеспечить хранение данных о сеансе работы каждого клиента. Это послужило основной причиной выделения механизма метапоиска в отдельную веб-службу, т.к. время жизни службы метапоиска (сеанс) не совпадает со временем жизни веб-службы для работы с тезаурусом (равно времени жизни сервера приложений).

Подсистема метапоиска реализуется в виде трех компонентов: диспетчер запросов, набор адаптеров МП, буфер ответов.

Диспетчер запросов обеспечивает распределение пришедшего от клиента запроса по зарегистрированным в системе адаптерам МП, которые указываются в конфигурационном файле.

Адаптер МП реализует стандартный интерфейс к универсальной МП интернета. На него возлагаются следующие функции:

Буфер ответов необходим для сокращения времени отклика сервера на запрос клиента. Таким образом, ответы, поступившие первыми, будут сразу же запрошены клиентом, хотя возможно, что еще не все машины поиска вернули результат. В связи с этим слияние и ранжирование результатов поиска производиться на клиенте (ранжирование производится по мере поступления новых порций ответов от сервера).

На данный момент реализованы механизмы работы с машинами поиска Google и Яндекс. Использование этих МП совместно с функцией перевода запросов с помощью тезауруса позволяет повысить эффективность двуязычного поиска специальной информации. Кроме того, обе МП предоставляют удобный API: Google API и Яндекс.XML.

На данный момент разработан рабочий прототип системы ProThes. Препятствием для активного развития системы являются ограничения на количество запросов через API МП Google и Яндекс. Другим сдерживающим фактором является необходимость разработки тематических тезаурусов вручную. В настоящее время основные усилия направлены на повышение производительности системы и удобства ее использования.

Работа выполнена при поддержке РФФИ, грант 03-07-90342.

Примечание. Тезисы докладов публикуются в авторской редакции



Ваши комментарии
Обратная связь
[ICT SBRAS]
[Головная страница]
[Конференции]

© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск