VIII Международная конференция по электронным публикациям "EL-Pub2003"

8-10 октября 2003 г., г. Новосибирск, Академгородок

CIMI (Z39.50) - основа интеграции информационных ресурсов по культурному наследию

Мазов Н.А., Жижимов О.Л.
Объединенный институт геологии, геофизики и минералогии СО РАН, Новосибирск

Аннотация.

В докладе обсуждается возможность организации доступа к информационным ресурсам по культурному наследию в соответствии с международным профилем CIMI (Computer Interchange of Museum Information) по протоколу Z39.50. Профиль предоставляет спецификации для поиска и извлечения информации из разнородных информационных ресурсов о культурном наследии. Эти ресурсы могут содержаться в одной или более базах данных, доступных через один или более CIMI?серверов, поддерживающих этот профиль или другие реализации Z39.50. Пользователь может проводить поиск в этих базах данных для извлечения цифровых представлений музейной информации, таких как записи объектов или изображения со связным текстом. Информационные системы, организованные на основе серверов Z39.50 с использованием настоящего профиля, становятся независимыми от конкретных систем хранения данных и, следовательно, могут быть интегрированы с другими подобными системами.

Предоставление доступа из сети Интернет к информационным ресурсам о культурном наследии (музеев, архивов и пр.) в настоящее время организовано различными способами и с применением различных технологий и протоколов. Наиболее распространенным способом является WEB-ориентированный доступ, как наиболее простой и эффективный способ организации сетевого доступа к информационным ресурсам различного характера. Следует заметить, что технология, основанная WEB, не позволяет построить распределенную информационную систему со сквозным поиском и едиными для всех систем интерфейсами, поскольку для WEB отсутствует такая важнейшая компонента, как глобальная стандартизация на уровне организации данных и форматов их представления. Единственной технологией в настоящее время, содержащей подобную компоненту и апробированной в режиме промышленной эксплуатации, является технология, основанная на международном стандарте ISO-23950 (Z39.50) [1].

Разработка технологии создания распределенной информационной системы, предназначенной для представления разнородных электронных коллекций музейной тематики, является фундаментальной научной проблемой [2]. Это обусловлено тем, что музейные электронные экспонаты, носят самый разнообразный характер: это описательные базы данных; базы данных изображений (фотографий и пр.) и видео- (аудио-) материалов и др. Эти ресурсы принадлежат различным организациям, которые, как правило, проводят самостоятельную политику в отношении их описания, использования и публичного доступа к ним. Все эти ресурсы могут быть объединены в единую распределенную информационную систему, что позволит открыть всю информацию для пользователей, накопленную за долгое время и в разных местах, позволит оперативно получать исчерпывающие ответы на сложные запросы.

В 1998 году консорциумом по компьютерному обмену музейной информацией был разработан профиль CIMI (Computer Interchange of Museum Information) для информации о культурном наследии и предназначенный для работы по протоколу Z39.50. При создании профиля рабочая группа CIMI Z39.50 объединила вместе экспертов по Z39.50, экспертов в области музейного дела и музейной информации, разработчиков программного обеспечения и специалистов в области коммерции. Их приверженность к возможностям распределенного поиска и извлечения информации о культурном наследии, сделали возможной разработку профиля CIMI [3]. Элементы этого профиля имеют глобальные идентификаторы и являются частью международного стандарта ISO-23950. Именно этому аспекту в Z39.50 и посвящен настоящий доклад.

Профиль - спецификация для использования в качестве стандарта (или группы стандартов) для поддержки особых приложений, функций, сообществ или классов информации. Профиль выбирает опции, подмножества, значения параметров и т.д., причем этот выбор остается открытым в стандарте, где эти выборы необходимы для выполнения определенных функций. Профиль может также задавать аспекты клиент серверных взаимодействий, которые выходят за рамки основных стандартов. Целями Профиля являются:

  1. предоставление коммерческим агентам необходимых спецификаций для построения интероперабельных продуктов
  2. предоставление заказчикам спецификаций, которые могут быть использованы при закупке продукта.

Профиль CIMI определяет подмножество характеристик Z39.50, опций и параметров, необходимых для поддержки функциональности и требований пользователя при поиске и извлечении информации о культурном наследии. Клиенты Z39.50, поддерживающие этот профиль (т.е. CIMI-клиенты), будут иметь возможность взаимодействия с любыми серверами Z39.50, поддерживающими этот профиль (т.е. CIMI-серверами). Клиенты, поддерживающие Z39.50, но не реализующие этот профиль (например, существующие библиографические клиенты Z39.50) будут иметь возможность доступа к CIMI-серверам, однако с меньшей функциональностью, нежели предоставляет этот профиль. Профиль предоставляет спецификации для поиска и извлечения информации из разнородных информационных ресурсов о культурном наследии. Эти ресурсы могут содержаться в одной или более базах данных, доступных через один или более CIMI серверов, поддерживающих этот профиль или другие реализации Z39.50. Пользователь может проводить поиск в этих базах данных для извлечения цифровых представлений музейной информации, таких как записи объектов или изображения со связным текстом. Эти представления могут являться составными документами, включающими мультимедийные форматы ресурсов.

Профиль CIMI является дополняющим профиль Z39.50 для доступа к цифровым коллекциям [5]. Это означает, что он определяет расширения, совместимые с этим профилем. Профиль CIMI использует подмножество спецификаций профиля для цифровых коллекций.

Профиль Z39.50 для информации о культурном наследии относится к внутрисистемному взаимодействию и информационному обмену между CIMI клиентами и CIMI-серверами и не накладывает никаких ограничений на интерфейс пользователя, внутреннюю структуру баз данных, содержащих цифровую информацию об объектах или функциональность механизма поиска.

Профиль CIMI - это профиль Z39.50 для информации о культурном наследии. Он является набором технических спецификаций для использования ANSI/NISO Z39.50 1995, для поиска и извлечения информации о культурном наследии. В широком определении культурное наследие включает в себя искусство, архитектуру, историю культуры и историю естествознания.

Профиль представляется набором технических спецификаций, которые управляют взаимодействием <клиент-сервер> при извлечении информации из одного или более распределенных электронных хранилищ. Профиль CIMI определяет спецификации для поиска в базе данных, отбора найденной информации из базы данных, структурирования и упаковки информации для передачи от сервера к клиенту. Профиль содержит разделы, которые детализируют способ использования Z39.50 для следующих целей:

Поиск: Спецификации, которые позволяют клиенту и серверу обмениваться точками доступа для поиска в базах данных, содержащих, например, записи музейных объектов и изображения с присоединенным текстом. Эта задача решается путем спецификации стандартного списка точек доступа (список представлен в наборе атрибутов CIMI-1) в соответствии с семантикой для этих точек доступа. Клиент и сервер договариваются по наборам атрибутов CIMI-1 и другим множествам атрибутов Z39.50. Возможности, предоставляемые этими спецификациями, позволяют клиенту расширять поиск по специфическому содержанию (например - название объекта, происхождение объекта, материал или среда объекта и др.) стандартным путем, который может быть понят сервером.

Извлечение: Спецификации, охватывающие выбор и передачу. Спецификации выбора позволяют клиенту и серверу обмениваться информацией о записях в базе данных для извлечения полной записи или определенных единиц информации (т.е. одной или более групп полей базы данных). Эта возможность реализуется путем определения стандартного списка элементов в абстрактной структуре записи для извлеченной записи, в соответствии с семантикой для этих элементов. Клиент и сервер понимают абстрактную структуру записи. Функциональность, которая обеспечивается этими спецификациями, позволяет клиенту запрашивать группы элементов и также позволяет серверу отправлять эти элементы и метки к ним стандартным путем для последующей обработки клиентом. Спецификации передачи позволяют клиенту и серверу обмениваться записями в понятном формате, доступном для последующей обработки. В протоколе Z39.50 такие форматы называются синтаксисом записи.

В следующих разделах описаны дополнительные детали, касающиеся функциональности, предоставляемой профилем для поиска и извлечения информации, а также объясняются спецификации для поиска, выбора и передачи.

Поиск

Набор атрибутов Z39.50 определяет точки доступа для данной области применения. Область применения настоящего профиля - информация о культурном наследии, поэтому подходящими точками доступа являются те, которые относятся к требуемой информации о культурном наследии, такие как записи в базах данных о музейных объектах и изображениях. Поисковые запросы зачастую содержат поисковый термин и информацию об этом термине. Например, пользователь, заинтересованный в поиске картин Ван Гога должен провести его таким путем, чтобы система обработала запрос на поиск <Ван Гог> как <художника>, а не как <субъект картины>. Чтобы дать возможность пользователю поиска во многих базах данных на одном или большем количестве серверов, необходимо стандартизировать поисковое выражение таким образом, чтобы клиент и сервер могли производить обмен информацией недвусмысленным образом. Эта задача решается путем определения набора атрибутов, который определяет список точек доступа, дополнительную информацию, применяемую для характеристики поисковых терминов и представлением поисковой строки стандартным образом. Для профиля CIMI используется набор атрибутов CIMI-1 [3, Приложение A] для поисковых выражений, предназначенных для поиска информации о культурном наследии.

Набор атрибутов CIMI-1 отражает в себе соглашения с широким музейным сообществом о наборе точек доступа, которые должна поддерживать система. При изучении существующих стандартов и систем, после проведения анализа запросов пользователей к музейным коллекциям, консорциумом CIMI был разработан стандартный набор точек доступа.

Таким образом, набор CIMI-1 предоставляет механизм совместного понимания при поиске для клиента и сервера. Например, когда пользователь отправляет запрос на извлечение информации о <происхождении произведения>, база данных сервера может иметь или не иметь <происхождение произведения> как отдельную точку доступа. В этом случае необходимо, чтобы такой запрос был корректно отображен сервером на соответствующие поля или индексы локальной базы данных. Сервер, поддерживающий этот профиль, может понять, когда он получает запрос на <происхождение произведения>, поскольку запрос представлен и выражен в стандартной форме набора атрибутов CIMI-1. Для переадресации запросов профиль использует набор элементов метаданных Дублинского ядра [4]. Use атрибуты, ассоциированные с элементами Дублинского ядра могут выразить запрос на поиск в терминах точек доступа, представленных или охарактеризованных элементами Дублинского ядра.

Выбор

Существует два требования для содержательного поиска информации в многобазовом окружении. Во-первых, клиенты и серверы должны быть способны обмениваться записями из баз данных (или элементами их записей) в форматах, которые они могут понять и обработать. Во-вторых, клиенты и серверы должны иметь одинаковое понимание элементов в этих базах данных и иметь возможность идентифицировать эти элементы недвусмысленно для выбора информации, которую необходимо получить.

Профиль CIMI Z39.50 определяет в схеме CIMI список элементов, присутствие которых необходимо в актуальных базах данных. Всякая локальная база данных применяет термины для обозначений полей базы данных и их структуры. Схема обеспечивает абстрактное представление этих баз данных. В этом абстрактном виде - поля базы данных пронумерованы как элементы схемы. Каждый элемент имеет уникальное имя, уникальную цифровую метку и определение. Схема также показывает структурную организацию этих элементов в структуру абстрактной записи.

Аналогично, как и для набора атрибутов CIMI-1, обсужденных выше, схема CIMI и соответствующая структура абстрактной записи служат <языком взаимопонимания> для обмена между клиентом и сервером при извлечении информации. Схема CIMI абстрактно определяет единицы информации, которые могут быть найдены в записях базы данных объектов, изображений с присоединенным текстом и каталожных записях. Схема не указывает, как поле названо в базе данных. Наоборот, она предлагает стандартный путь для именования этих элементов или полей. Например, схема CIMI определяет элемент dateOfOrigin. Локальная база данных может иметь одно или более полей, относящихся к <дате создания объекта>. Поскольку семантика предлагается для каждого элемента схемы CIMI [3, Приложение C), администратор базы данных знает, что в случае, если клиентом запрошен элемент dateOfOrigin, то должна быть возвращена информация, относящаяся к <дате создания объекта>.

Клиент может запрашивать группы полей базы данных. Такая возможность реализована через использование наборов элементов. Профиль CIMI определяет несколько наборов элементов. Каждый имя набора элементов является идентификатором набора элементов, которые сервер должен отправить клиенту. Профиль определяет набор элементов, который включает подходящие элементы, которые позволят клиенту получить соответствующие записи из базы данных (например, набор важнейшей информации об объекте из хранилища музея). Клиент также может запросить сервер на возврат полной записи из базы данных.

Сервер, используя стандартный список элементов, определенный в схеме, помечает все информационные единицы, извлеченной записи базы данных. После получения записи, клиент может манипулировать единицами информации и составить набор, наиболее подходящий пользователям данной клиентской системы (например, представить названия на родном языке).

Профиль CIMI определяет две наиболее важных возможности извлечения информации:

Спецификации в схеме и ассоциированной с ней структуре абстрактной записи позволяют серверу возвращать одно или более изображений, ассоциированных с записью об объекте. Поскольку локальная база данных может содержать изображение более чем в одном разрешениях (например, картинку для предварительного просмотра и изображение высокого разрешения), профиль содержит понятие о представлении. Представление является специфической версией изображения. Таким образом, сервер может вернуть клиенту одно или более изображений, также как и одно или более видов (наглядных представлений) каждого изображения. Более того, в дополнение для каждого изображения и наглядного представления может быть извлечена специфическая описательная информация.

Передача

Схема CIMI и ассоциированная с ней структура абстрактной записи описывают, как должны быть однозначно помечены сервером элементы/поля базы данных. Передача элементов от сервера к клиенту требует еще одного набора спецификаций. Z39.50 использует понятие синтаксиса записей, для определения каким образом сервер упаковывает элементы базы данных для отсылки клиенту. Синтаксис записи предписывает серверу, каким образом должны быть отформатированы элементы/поля базы данных перед отсылкой их клиенту. Универсальный синтаксис записи GRS-1 (Generic Record Syntax) Z39.50 позволяет серверу использовать произвольно структурированные данные. GRS-1 является синтаксисом записи, необходимым для профиля CIMI. Для обеспечения интероперабельности между библиотеками и музеями, профиль CIMI также предоставляет руководство по использованию USMARC в качестве синтаксиса записи [3, Приложение D].

Схема CIMI может быть использована и вне протокола Z39.50. Тогда, когда работа происходит за рамками профиля CIMI, можно создавать и передавать записи баз данных, соответствующих схеме CIMI в других форматах, таких как, например, XML.

Резюме

Профиль CIMI отражает набор спецификаций при использовании Z39.50 для поиска и извлечения информации о культурном наследии. Он также предоставляет две значительных области стандартизации, которые могут быть полезны вне области применения Z39.50.

Во-первых, набор атрибутов CIMI-1 определяет большой набор точек доступа, который может быть использован для представления поисков информации о культурном наследии. Поскольку этот набор точек доступа был получен в результате эмпирических исследований и обсуждений с членами музейного сообщества, он может рассматриваться как представление общего набора точек доступа, полезных в области информации о культурном наследии.

Во-вторых, схема CIMI предоставляет стандартный список элементов баз данных и организации этих элементов для обмена информацией о культурном наследии. Стандартный список может быть использован как конвертор или метаязык для того, чтобы пометить элементы локальной базы данных и обмена этими элементами с другими системами.

Z39.50, как протокол обмена <компьютер-компьютер>, использует эти структуры для того, чтобы сделать возможным интероперабельный поиск и извлечение информации. В контексте приложения к информации о культурном наследии, профиль CIMI определяет использование взаимопонятных атрибутов и элементов схемы для устойчивого извлечения информации посредством Z39.50.

В заключение, авторы выражают надежду, что музейное сообщество России подключится к программе предоставления доступа к своим информационным ресурсам по протоколу Z39.50 с использованием профиля CIMI.

Литература

  1. ANSI/NISO Z39.50-1995. Information Retrieval (Z39.50): Application Service Definition and Protocol Specification. Z39.50 Maintenance Agency Offical Text for Z39.50-1995, July 1995.
  2. Жижимов О.Л., Мазов Н.А. О доступе к информационным ресурсам по культурному наследию по протоколу Z39.50 // EVA'2000. "Электронная конвергенция: новые технологии в музеях, галереях, библиотеках и архивах", 30 октября - 3 ноября 2000 г.: Матер. конф., М., Центр ПИК Минкультуры РФ, 2000, 08-2-1 - 08-2-2
  3. The CIMI Profile Release 1.0H A Z39.50 Profile for Cultural Heritage Information http://www.cimi.org/documents/HarmonizedProfile/HarmonProfile1.htm
  4. Weibel, S., Kunze, J., Lagoze, C., Wolf, M. (1998, September). RFC 2413: Dublin Core Metadata for Resource Discovery. ftp://ftp.isi.edu/in-notes/rfc2413.txt
  5. Library of Congress. (1996). Z39.50 Profile for Access to Digital Collections. http://lcweb.loc.gov/z3950/agency

Ваши комментарии
Обратная связь
[ICT SBRAS]
[Головная страница]
[Конференции]

© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск