VII Международная конференция по электронным публикациям "EL-Pub2002"

23-27 сентября 2002 г., г. Новосибирск, Академгородок

Поисковая система для полнотекстовых баз данных

Холюшкин Ю.П., Воронин В.Т., Федоров С.А., Бердников Е.В., Соловьев В.М
Институт археологии и этнографии СО РАН, Новосибирск

На сервере сектора археологической теории и информатики (САТИ) Института археологии и этнографии (ИАЭТ) СО РАН размещена пилотная версия поисковой системы по полнотекстовым базам данных электронной библиотеки Института [1-3], обеспечивающая открытый удаленный доступ к информации, поиск по поисковым терминам и извлечение.

Работа выполняется при финансовой поддержке Института "Открытое Общество. Фонд Содействия" (Фонд Сороса), Российского гуманитарного научного фонда (проект № 01-01-12013в) и проекта Сибирского отделения РАН "Информационные ресурсы Сибирского отделения РАН" (научный руководитель проекта академик Шокин Ю.И.).

В разработке были использованы идеи и решения по созданию открытых программных систем, ориентированных на поддержку протоколов Z39.50 и Web:

Работа выполнена как этап программы создания, поддержки и развития информационных ресурсов электронной библиотеки ИАЭТ СО РАН. В соответствии с этой программой на сервере САТИ при любезной помощи и поддержке ОИГГМ СО РАН установлены программно-технические средства поддержки протоколов Web и z39.50 (разработчик О.Л.Жижимов) и развернута информационная система Isite (CNIDR). Интеграция этих программно-технических средств позволила организовать в пилотном режиме открытый и свободный доступ к базам данных САТИ ИАЭТ и научной библиотеки СО РАН на основе международных стандартов.

В предшествующем, 2001 году исполнителями проекта предварительно была осуществлена адаптация электронных информационных ресурсов научной библиотеки и САТИ ИАЭТ СО РАН для их представления в Корпоративной информационной системе в стандартных обменных форматах RUSMARC и HTML по стандартным протоколам взаимодействия (Z39.50, HTTP). Для этих целей были разработаны абстрактные схемы и модели данных для баз данных электронной библиотеки САТИ ИАЭТ СО РАН в соответствии с протоколом Z39.50, а также произведено отображение информационных ресурсов электронной библиотеки на абстрактные схемы данных, приобретено, установлено, протестировано и введено в действие необходимое для проекта оборудование и осуществлена адаптация программного обеспечения доступа к базам данных в соответствии со спецификациями протокола Z39.50.

В текущем 2002 году дополнительно к сервисным возможностям электронной библиотеки ИАЭТ СО РАН открытого доступа в рамках региональной Корпоративной информационной системы к электронному каталогу научной библиотеки Института и открытого доступа через этот каталог к информационным ресурсам на сервере САТИ) были проработаны пилотные схемы индексации полнотекстовых баз данных для открытого удаленного доступа, обеспечивающие возможности поиска и извлечения данных. В качестве баз данных использовалось полнотекстовые информационные ресурсы, размещенные на сервере САТИ.

Алгоритмы автоматизации предусматривают возможность после любого изменения содержания сайта, по которому осуществляется поиск, запустить скрипт индексации, автоматически обновляющий базу данных для поиска. Доступ к этой возможности по протоколам HTTP и Z39.50 осуществляется через Web-интерфейс. При этом доступ по протоколу Z39.50 производится с помощью клиента Z39.50.

На первом этапе (конвертации) средствами Интернет индексируемая база данных сохраняется в виде HTML-файлов. Для проведения следующего этапа была создана программа-утилита для извлечения из набора HTML-файлов информации об URL ресурса и связанных с ним ссылок. В результате работы утилиты генерируется база данных, представленная набором HTML-документов, пригодных для организации по ним полнотекстового поиска.

Полученная база данных размещается на Z-сервере САТИ, индексируется средствами информационно-поисковой системы Isite и становится доступной для полнотекстового поиска по протоколу Z39.50. В качестве поисковой системы был выбран Z-сервер Isite, который позволяет осуществлять поиск по протоколу Z39.50. Поиск данных в индексированных базах организован по следующей схеме.

Вначале пользователь вводит поисковый запрос на клиентской странице Web-сервера САТИ: http://www.sati.archaeology.nsk.su/zap/. Этот запрос передается Z-серверу, который взаимодействует с подсистемой Isearch. В свою очередь Isearch осуществляет поиск записи в выбранной поисковой базе, удовлетворяющей заданному запросу, и возвращает их Z-серверу, который генерирует ответ сервера, отправляемый далее пользователю в виде документа HTML. При поиске информации по ключевому слову выбирается база данных, вводится в поле "Поисковый термин" ключевое слово, по которому требуется выполнить поиск и которое должна содержать искомая запись (см. рис.1), и нажать кнопку <Поиск>. После этих шагов в окне браузера вы увидите результат поиска (см. рис. 2).


Рис. 1.


Рис. 2.

Так же как и в электронном каталоге, поиск можно осуществлять и по нескольким ключевым словам. Система успешно опробована на двух типах баз полнотекстовых данных:

Первая электронная база представляет собой каталог - дерево ссылок Интернет по гуманитарной тематике. Он хранится на Web-сервере САТИ в СУБД PostgreSQL. Доступ к каталогу организован через Web-интерфейс. Для индексации были выбраны данные Информационного портала "Гуманитарная паутина" (URL: http://www.sati.archaeology.nsc.ru/refers/main.html), представляющие собой ссылки на российские Web-серверы, наполнение которых имеет отчетливую гуманитарную тематику. Каждая ссылка в каталоге имеет развернутую аннотацию.

Аннотация отражает: специфику содержания сайтов; круг специалистов-гуманитариев, которым может понадобиться информация на их страницах; образовательные возможности и т.д. Все ссылки собраны в тематические разделы, подразделы и группы (в скобках указано число ресурсов-ссылок на момент проведения индексации).

Вторая база полнотекстовых данных представляет собой размещенное также на сервере САТИ (URL: http://www.sati.archaeology.nsc.ru/Home/pub/) собрание электронных публикаций научных сотрудников, аспирантов, преподавателей и студентов по гуманитарной проблематике. Большая часть материалов не имеет твердых оригиналов или выпущена в твердой копии ограниченным тиражом.

Раздел публикаций предназначен для специалистов по археологии, этнографии, истории и культуре, студентов-историков и широкого круга людей, интересующихся информацией об этнографии и археологии и смежным вопросам. Назначение сайта - обеспечить пользователям удобный доступ к широкому спектру малодоступных, но нужных и интересных информационных ресурсов из сферы этнографии и археологии, смежных дисциплин.

Описанную систему и технологию индексирования полнотекстовых баз данных с помощью Isite предусматривается использовать для организации и развертывания поисковых систем на других разделах и страницах информационного узла САТИ. Учитывая ее пользовательские качества как прототипа, простоту и ориентацию на программные средства открытого доступа, можно рекомендовать описанные подходы и решения для использования в разработках аналогичных систем индексирования и поиска полнотекстовых данных, размещенных на других подобных сайтах.

Литература

1
Холюшкин Ю.П., Воронин В.Т., Федоров С.А., Бердников Е.В. Технология доступа к библиографическим базам данных ИАЭт СО РАН из Internet. // Технологии информационного общества - Интернет и современное общество 2001. Материалы Всероссийской объединенной конференции. Санкт-Петербург, 20-23 ноября 2001 г. - СПб, 2001. - с. 228-230.
2
Деревянко А.П., Холюшкин Ю.П., Воронин В.Т., Воробьев В.В., Федоров С.А., Бердников Е.В., Елагина С.В. Создание информационного центра сектора археологической теории и информатики ИАЭТ СО РАН (проблемы и решения) // Информационные технологии в гуманитатарных исследованиях. Вып. 3. Новосибирск: 2002. С. 6-14.
3
Холюшкин Ю.П., Воронин В.Т., Федоров С.А., Бердников Е.В., Жилицкая Г.Ю. Электронный каталог научной библиотеки ИАЭТ СО РАН. // Информационные технологии в гуманитатарных исследованиях. Вып. 3. Новосибирск: 2002. С. 15-20.
4
Kevin G. The Isite Information System. Version 2.06. http://www.awcubed.com/Isite/Isite.html.


|Электронная библиотека| |Математические публикации| |Информационные ресурсы|
Ваши комментарии
Обратная связь
[SBRAS]
[Головная страница]
[Конференции]
[СО РАН]

© 2002, Сибирское отделение Российской академии наук, Новосибирск
© 2002, Объединенный институт информатики СО РАН, Новосибирск