Интегрированная распределенная информационная система Сибирского отделения РАН

Шокин Ю.И., Федотов А.М., Жижимов О.Л., Мазов Н.А.

Институт вычислительных технологий СО РАН (Новосибирск),
Объединенный институт геологии,
геофизики и минералогии СО РАН (Новосибирск)

Основные положения

Важнейшей частью Информационной среды Сибирского отделения РАН, создаваемой в рамках целевой программы СО РАН ``Информационно-телекоммуникационные ресурсы СО РАН'', является информационная поддержка научных исследований, проводимых в Отделении. В информационную поддержку помимо обеспечения использования информационных ресурсов мирового научного сообщества, представляемых сетью Internet включаются задачи создание, развитие и управление собственными информационными ресурсами, а так же распространение своих достижений в виде электронных публикаций, электронных коллекций, атласов и информационных систем.

В Отделении накоплена и постоянно собирается уникальная научная информация, как по различным отраслям наук, так и по природному комплексу. Но, к сожалению, пока отсутствует единая технология сбора информации, разобщенность ее как по месту хранения, так и по форме представления и что самое главное отсутствует информация об информации. Все это не позволяют широко использовать информационные ресурсы для интенсификации и кооперации междисциплинарных фундаментальных и прикладных исследований. Существенной проблемой, связанной с информационными ресурсами Отделения, является факт "гибели" информации, вызванный постоянным оттоком кадров исследователей и технического персонала, ответственного за ее хранение.

Для решения проблем информационного обеспечения в Отделении принято решение о создании собственной ``Интегрированная распределенная информационная система СО РАН'' (ИРИС), в которой бы аккумулировалась большая часть необходимой для сотрудников информации, включая создание полнофункциональной системы об интеллектуальном потенциале Отделения и "Электронной библиотеки Сибирского отделения РАН". ИРИС представляет распределенную информационную систему об институтах, сотрудниках, научных разработках, публикациях, достижения и др. аспектах, связанных с работой Отделения. ИРИС обеспечивает систему работы с документами различного происхождения (объединение распределенных и локальных электронных информационных и программно-алгоритмических ресурсов, включая документооборот), систему электронной поддержки сбора и накопления информации (системы электронных коллекций, баз данных и т.п.). Принципы, заложенные в проектирование системы, позволяют автоматизировать процессы создания электронных коллекций, библиотек и т.п.

Основное назначение ИРИС связано с созданием единой распределенной информационной среды Отделения, объединяющей в интегрированное информационное пространство распределенных и локальных электронных ресурсов (информационных, программных, алгоритмических) организаций Отделения и комплекса программно-технических средств, обеспечивающего использование этих ресурсов и полнофункциональное управление ими. Создание системы связано с информационной поддержкой исследований по фундаментальным и прикладным направлениям, проводимым в институтах Отделения, а также межинститутских междисциплинарных научных исследований.

Основные направления программы связаны с формированием собственных электронных ресурсов по основным отраслям наук (математика, науки о земле, химия, биология, археология и др.), созданию и поддержке электронных коллекций и электронных публикаций, организации удобных систем доступа к библиотечным и библиографическим базам данных ГПНТБ СО РАН и базам данных Институтов Отделения, организации зеркал наиболее значимых мировых информационных ресурсов. Создаваемая информационная система Сибирского отделения РАН призвана обеспечить:

Организационно-технологическое обеспечение процесса создания полнофункциональной информационной системы включает в себя большой спектр работ, связанных с организацией системы доступа пользователей к информационно-вычислительным ресурсам и к базам данных, сохранение, поддержку и создание информационных ресурсов Отделения, что самое главное воспитание нового пользователя, способного жить и работать в современном информационном мире. Из первоочередных задач, которые решаются в настоящий момент отметим следующие:

Составляющие

Если говорить о типах информационных ресурсов, которые должны поддерживаться ИРИС, то можно выделить следующие

Каталоги информационных ресурсов,
т.е. информация об информационных ресурсах, или метаинформация. К этому типу следует отнести всю вторичную информацию об информационных ресурсах, в том числе электронные каталоги традиционных библиотек, электронные версии реферативных журналов, каталоги музеев, архивов и т.п. К этому типу также следует относить описания ресурсов WEB-серверов, базы данных по организациям, сотрудникам и т.д.

Электронные коллекции,
т.е. совокупности цифровых объектов, объединенных по каким-либо общим признакам. Электронные коллекции представляют собой первичный информационный ресурс. Несомненно, описания этих коллекций и отдельных цифровых объектов являются ресурсами вторичными, т.е. каталогами.

Классификационные ресурсы,
т.е. различные электронные рубрикаторы, тезаурусы, схемы и справочники, нормирующие правила составления каталогов информационных ресурсов и отношения между цифровыми объектами.

Хранилища программного обеспечения,
которое обеспечивает функционирование ИРИС в целом, ее отдельных компонент и информационных ресурсов.

Административные информационные ресурсы,
включающие полную информацию об актуальном состоянии ИРИС и ее отдельных компонент.

Несомненно, каждый из перечисленных типов информационных ресурсов требует собственного подхода при его интеграции в рамках ИРИС и собственных интерфейсов для доступа пользователей.

Ниже описаны технологии интеграции ресурсов, апробированные в рамках различных проектов построения распределенных информационных систем.

Каталоги информационных ресурсов

Технология интеграции ресурсов этого типа проработана наиболее полно. Она основана на открытом международном стандарте Z39.50 (ISO23950), определяющем сетевой доступ к базам данных. Стандарт Z39.50 включает в себя все необходимые компоненты для организации распределенной информационной системы, основанной на жестких (глобально стандартизованных) правилах каталогизации.

На сегодняшний день в Z39.50 определены глобальные схемы для следующих типов метаданных:

Библиографические описания (Usmarc, Rusmarc, Unimarc и т.д.)

Общее описание информационных ресурсов (GILS)

Описания цифровых коллекций и объектов (Digital Collections)

Описание музейных коллекций и экспонатов (CIMI)

Описание геоинформационных ресурсов (GEO)

Этих схем достаточно для описания 80% информационных ресурсов СО РАН. Остальные 20% информационных ресурсов (информация о сотрудниках, информация об организациях и др.) могут быть описаны в рамках локально стандартизованных схем данных.

Доступ к этому типу информационных ресурсов открыт по протоколам Z39.50 (из специализированных клиентов) и HTTP (через шлюз Z39.50-HTTP).

Электронные коллекции

В основу создания электронных коллекций в наших работах положена концепция динамической системы формирования документов. Используемая концепция основана на расширенной объектной модели документа, в которой каждый тип документов, содержащих информацию о конкретных фактах, представляется в виде набора объектов со своими характеристиками и атрибутами (наподобие тому, как это принято в объектных языках программирования), т.е. любая сущность реального мира моделируется в виде объекта.

Любой объект при своем создании получает генерируемый системой уникальный идентификатор, который связан с объектом во все время его существования и не меняется при изменении состояния объекта.

Каждый объект имеет состояние и поведение. Состояние объекта - набор значений его атрибутов. Поведение объекта - набор методов (программный код), оперирующих над состояниями объекта. Значение атрибута объекта - это тоже некоторый объект или множество объектов. Состояние и поведение объекта инкапсулированы в объекте; взаимодействие между объектами производится на основе передачи сообщений и выполнении соответствующих методов.

Специфика применения объектно-ориентированного подхода для организации и управления информационными ресурсами потребовала уточненного толкования классических концепций и некоторого их расширения. Это определяется потребностями долговременного хранения объектов во внешней памяти, ассоциативного доступа к объектам, обеспечения согласованного состояния в условиях множественного доступа и тому подобных возможностей, свойственных базам данных.

Исходя из объектной модели представления информации в основе нашей системы лежат "метаданные" - это структурированные сведения о ресурсе, представляющие его свойства (атрибуты). На основе метаданных осуществляется поиск ресурсов, вывод результатов поиска, управление ресурсами, взаимодействие с ними. В целом, конструируя технологию описания ресурсов, мы основывались на методике RDF, которая предлагается консорциумом W3C в качестве стандарта для определения и обработки метаданных Web-ресурсов. Специфика RDF состоит в том, что механизмы описания ресурсов, не делают никаких предположений относительно специфики предметной области и могут быть удобны для описания и обработки сведений о любой области. Примечательной стороной RDF является то, что он позволяет сделать утверждения не только о ресурсах, но и о самих утверждениях.

Разработанная технология предоставляет возможность объединить различные информационные ресурсы в концептуально одну информационную среду, а также оперативно управлять и актуализировать информацию, хранящуюся в разнородных и распределенных по сети базах данных, организовать гибкий поиск, что самое главное создать достаточно удобный интерфейс для ее наполнения.

Классификационные ресурсы

Этот тип информационных ресурсов нормирует правила наполнения каталогов и предметную иерархию цифровых объектов. Этот тип включает в себя:

Различные классификационные схемы и рубрикаторы

Предметные тезаурусы

Справочники и авторитетные файлы

Словари.

Включение этого типа информационных ресурсов в ИРИС наиболее удобно производить по протоколу Z39.50 (стандартная схема Zthes). Это обеспечивает совместимость с международным стандартом (ISO2788) и позволяет использовать технологию, разработанную для каталогов информационных ресурсов.

Хранилища программного обеспечения

ИРИС, несомненно, должна содержать многоплатформенное программное обеспечение, необходимое как для своего функционирования, так и для визуализации цифровых объектов. Доступ к этим ресурсам возможен по протоколам FTP и HTTP. Для визуализации цифровых объектов необходимы и другие протоколы, например, RPC.

Административные ресурсы

К административным информационным ресурсам следует относить

Описание топологии ИРИС

Описание всех серверов ИРИС

Описание всех баз данных

Описание всех схем данных, в том числе нестандартных

Описание всех поисковых атрибутов

Описание всех форматов представления информации

Описание маршрутов исполнения запросов

Описание полномочий пользователей

Статистика использования информационных ресурсов

Технология доступа к этим ресурсам основана на протоколах Z39.50 (Explain) и HTTP (XML,RDF).

Архитектура

В основу создания системы положен принцип информационных хранилищ, с учетом поддержки уже функционирующих технологий, например, с использованием этого принципа осуществляется интеграция кадровых баз данных Институтов в единую информационную систему по научным организациям и сотрудникам Отделения, который можно представить следующей схемой:

Состояние и перспективы

В качестве иллюстрации приводится прототип [3] разрабатываемой РИС на основе протокола Z39.50 с доступом через шлюз HTTP-Z39.50 [http://z3950.uiggm.nsc.ru/zgwk] с возможностью сквозного поиска в распределенных базах данных. Этот прототип включает в себя следующие подсистемы

Информационные ресурсы СО РАН

Распределенный электронный каталог библиотек г.Новосибирска

Библиографическая научно-техническая информация

Труды сотрудников СО РАН

Сотрудники СО РАН

Электронные коллекции СО РАН

Геоинформационные ресурсы СО РАН

Тезаурусы и классификационные схемы

Информация о серверах Z39.50 (Explain)

На сегодняшний день не все подсистемы этого прототипа функционируют в требуемом режиме, некоторые находятся в стадии отладки (см. рис.):

Рис. Шлюз Z39.50-HTTP РИС СО РАН

При построении инфраструктуры РИС на основе протокола Z39.50 используется программное обеспечение ZooPARK [4], разрабатываемое в ОИГГМ СО РАН, включающие в себя все необходимые компоненты для предоставления доступа к информационным ресурсам (сервер Z39.50, шлюз Z39.50-HTTP, графический клиент Z39.50). Программное обеспечение ZooPARK позволяет построить распределенную информационную систему, содержащую множество серверов Z39.50 с единой точкой входа, сквозным поиском и возможностью извлекать и просматривать информацию в различных форматах (SUTRS, XML, HTML, GRS-1, RUSMARC и др). В качестве схем данных используются принятые в мировой практике стандартные схемы (GILS[5], Collection[6], CIMI[7], GEO[8], ZTHES[9], EXPLAIN, RUSMARC, USMARC) и локально определенные (UIGGM, PERSONS).

Современные информационные и телекоммуникационных технологии, широкое развитие сети Интернет стимулировали развитие принципиально новый вид информационных ресурсов какими являются - электронные публикации и коллекции, обличенные в форму электронных библиотек, доступные через сеть Интернет. Создание и организация доступа к электронным коллекциям является одной из важнейших задач информационной поддержки науки, культуры и образования.

Наиболее важной работой, связанной с созданием информационных ресурсов Отделения является создание собственных электронных коллекций, аккумулирующих гигантский научный потенциал Отделения. Среди начатых работ следует отметить как наиболее продвинутые следующие:

Интегральная электронная библиотека по пространственным структурам и функциям ДНК, РНК и белков.

Виртуальный музей "Древняя история, культура и искусство Северной Азии" и WEB энциклопедия, cм. проект Электронные ресурсы сибирской и мировой археологии и этнографии.

Электронный атлас "Биоразнообразие животного и растительного мира Сибири".

Литература

  1. Сеть Интернет Новосибирского Научного Центра [http://www.sbras.ru/win/nsc-net/nsc.html].

  2. Шокин Ю.И., Федотов А.М. Информационная система Сибирского Отделения РАН // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Второя Всероссийская научная конференция, Протвино, 26-28 сентября 2000 г.: Сб. докл., Протвино, ГНЦ ИФВЗ, 2000, 6-15, ISBN 5-88738-029-2[http://www.protvino.ru/dl2000/reports/pdf/028.pdf]

  3. Жижимов О.Л., Мазов Н.А. Распределенная информационная система СО РАН. V рабочее совещание по электронным публикациям El-Pub-2000, Новосибирск, Академгородок, ИВТ СО РАН (21-23 июня 2000 г.) [http://www.ict.nsc.ru/ws/show_abstract.dhtml?1+16]

  4. Жижимов О.Л. Введение в Z39.50. Новосибирск: Изд-во НГОНБ, 2000 [].

  5. Application Profile For The Government Information Locator Service (GILS), Version 2, November 24, 1997. [http://www.gils.net/prof_v2.html]

  6. Z39.50 Profile for Access to Digital Collections. (Final Draft). May 3, 1996 [http://lcweb.loc.gov/z3950/agency/profiles/collections.html]

  7. The CIMI Profile Release 1.0H A Z39.50 Profile for Cultural Heritage Information [http://www.cimi.org/public_docs/HarmonizedProfile/HarmonProfile1.htm]

  8. Douglas D. Nebert. Z39.50 Application Profile for Geospatial Metadata or "GEO" Version 2.2. U.S. Federal Geographic Data Committee [http://www.blueangeltech.com/Standards/GeoProfile/geo22.htm]

  9. Жижимов О.Л., Мазов Н.А. Тезаурусы и классификационные схемы в распределенных информационных системах: проблемы и решения. Международная конференция EVA-2000 "Электронные изображения и визуальные искусства", Москва, Государственная Третьяковская галерея, 30 октября - 3 ноября 2000 г. [http://www.artinfo.ru/eva/EVA2000M/eva-papers/200008/Zhizhimov2-R.htm].

  10. База данных "Зеленая книга Сибири". [http://www-sbras.nsc.ru/win/elbib/bio/green/].

  11. База данных СО РАН. [http://www-sbras.nsc.ru/win/sbras/copan/].

  12. Базы данных и электронные каталоги ГПНТБ СО РАН. [http://info.spsl.nsc.ru/].

  13. Библиографический WEB сервер ОИГГиМ СО РАН. [http://geolibr.uiggm.nsc.ru/LWS/].

  14. Виртуальный музей "Древняя История, Культура и Искусство Северной Азии". [http://sati.archaelogy.nsc.ru/virtual_e.htm].

  15. Интегральная электронная библиотека по пространственным структурам и функциям ДНК, РНК и белков. [http://wwwmgs.bionet.nsc.ru/mgs/].

  16. Информационный сервер Сибирского отделения РАН. [http://www.sbras.ru/win/].

  17. Коропачинский И.Ю., Шокин Ю.И., Шумный В.К., Ермаков Н.Б., Колчанов Н.А., Федотов А.М. Электронный атлас "Биоразнообразие животного и растительного мира Сибири". [http://www-sbras.nsc.ru/win/elbib/bio/].

  18. Федотов А.М., Артемов И.А., Ермаков Н.Б., Красников А.А., Потемкин О.Н., Рябко Б.Я., Федотов А.А., Хорев А.Г. Электронный атлас "Биоразнообразие растительного мира Сибири". // Вычислительные технологии, т. 3, 5, 1998.

  19. Федотов А.М., Рябко Б.Я. Информационная безопасность полнотекстовых баз данных в среде Интернет. [http://www-sbras.nsc.ru/win/elbib/security.html].

  20. Федотов А.М., Шокин Ю.И. Электронная библиотека Сибирского отделения РАН. //Информационное общество, N2, 2000.

  21. Шокин Ю.И., Федотов А.М. Информационные технологии Internet // Вычислительные технологии, т. 2, N 3, 1997.

  22. Шокин Ю.И., Федотов А.М. Распределенные информационные системы // Вычислительные технологии, т. 3, N 5, 1998.

  23. Шокин Ю.И., Федотов А.М. Библиотека, работающая круглосуточно // ЭКО, N6, 2000.

  24. Шокин Ю.И., Федотов А.М., Богомяков П.А. Электронные журналы по математике (на примере электронной версии журнала "Вычислительные технологии".

  25. Электронные версии журналов издательства СО РАН. [http://www-psb.ad-sbras.nsc.ru/elversw.htm]



|Электронная библиотека| |Математические публикации| |Информационные ресурсы|
Ваши комментарии
Обратная связь
[SBRAS]
[Головная страница]
[Конференции]
[СО РАН]

© 2002, Сибирское отделение Российской академии наук, Новосибирск
© 2002, Объединенный институт информатики СО РАН, Новосибирск