VII Международная конференция по электронным публикациям "EL-Pub2002"

23-27 сентября 2002 г., г. Новосибирск, Академгородок

Объектный подход к понятию метаданных

Токарева О.В.
Барнаульский государственный педагогический университет, Барнаул


Аннотация.

В докладе рассматривается широко используемое разработчиками информационных ресурсов Интернет понятие "метаданных" с точки зрения применения к ним объектно-ориентированной технологии и повышения эффективности поиска нужной информации.

In report is considered the notion "metadata", which be used by developers of Internet information resources. It is necessary to use the standards to description elements of metadata. It is considered the possibility of using of object-oriented technology for the efficient searching for necessary information.


В результате расширения информационных ресурсов Интернет все более актуальной становится проблема систематизации хранимой информации и оптимизации ее поиска.

Часто информация, найденная по известным Web-адресам или с помощью поисковых роботов, непригодна для использования, особенно в научных целях, поскольку не содержит необходимых атрибутов - отсутствуют данные об авторах, даты, ссылки на используемые ресурсы и т.д. Поэтому при размещении данных на сайтах Интернет важно придерживаться определенных стандартов их описания.

Еще до эпохи Интернет существовала необходимость систематизации накопленной обществом информации, что привело к созданию каталогов, картотек, справочников, словарей, энциклопедий. В этих структурах информация подробно описывалась, что давало возможность ее правильно хранить, осуществлять поиск и обработку.

В процессе развития систем хранения и поиска информации особе место занимали и занимают системы управления базами данных (СУБД). С ними связано такое понятие, как "структура базы данных", в которой содержится информация о названиях полей данных, их типах, размерах, комментарии. С появлением иерархических и распределенных баз данных их структура значительно усложнилась, и возникла необходимость в специальном описании самой структуры.

Интернет можно представить как гиперсложную совокупность информационных ресурсов, систем и баз данных. Поэтому службы каталогизации, индексации и поиска информации работают не только с данными, но, прежде всего, с их описанием. Для отличия между самими данными и их описанием стал использоваться термин "метаданные".

Первая составная часть термина "мета" переводится с греческого как "после, за, между" и означает, во-первых, следование за чем-либо, переход к чему-либо другому, перемену состояния, превращение (метагенез, метаморфоза), во-вторых, в современной логической терминологии используется для обозначения таких систем, которые служат, в свою очередь, для исследования или описания других систем (метатеория, метаязык) [5, с. 373].

Согласно определению, данному коалицией Meta Data Coalition в документе "Open Information Model", "метаданные - это описательная информация о структуре и смысле данных, а также приложений и процессов, которые манипулируют данными" [2]. Термин "метаданные" уже давно и успешно применяется в таких контекстах, как информационные хранилища и системы аналитической обработки данных, электронный документооборот и управление потоками работ, управление знаниями. Язык HTML имеет тег META, содержащий данные об информации в документе.

Запись метаданных состоит из набора атрибутов или элементов, необходимых для описания данного ресурса. Так, в библиотеках система метаданных - библиотечный каталог - содержит набор записей метаданных с элементами, которые описывают книгу либо другую библиотечную единицу: автор, заглавие, дата создания или публикации, предметный охват и шифр, определяющий местонахождение единицы на полке.

Связь между записью метаданных и ресурсом, который она описывает, может осуществляться двумя способами [6]:

1. Элементы могут содержаться в записи, хранящейся отдельно от описываемой единицы, как это происходит в библиотечных каталогах.
2. Метаданные могут храниться непосредственно в теле ресурса. Например, титульные листы книг.

За последние годы в нашей стране и за рубежом выполнено много разработок по созданию различного рода электронных ресурсов, содержащих информацию из многих предметных областей: образовательной, экономической, химической, математической и других. В результате пользователи Интернет получают возможность приобщиться к новым знаниям. Однако увеличение общего количества информации влечет за собой увеличение времени на поиск необходимой.

Введение метаданных позволяет поисковым системам обращаться не к самой информации, а к ее описанию, что само по себе ведет к более быстрому поиску. Однако создание метаданных разного типа и состава не позволяет выработать оптимальные алгоритмы, что мешает дальнейшей оптимизации поиска.

В проекте "Концепции государственного регулирования негосударственными информационными ресурсами России", представленном Министерством РФ по связи и информатизации, большое значение придается разработке системы метаданных на основе единого стандарта: "Для обеспечения эффективной навигации и поиска в быстро растущих информационных ресурсах глобального Интернета в обозримом будущем неизбежно появление стандарта де-факто на метаданные, вероятно, на базе Дублинского ядра метаданных. В этом случае необходимо разработать и реализовать программу по его внедрению в российском Интернете, также с участием ведущих государственных и частных производителей ресурсов. Следует также учитывать наличие конкурентных предложений, прежде всего, метаданных системы GILS, а также языков метаданных, предлагаемых для отдельных категорий ИР, например, геопространственных или аудиовизуальных.

Однако внедрение российской системы метаданных влечет за собой и необходимость чисто российской оригинальной крупной разработки, а именно, входящего в состав метаданных или совместимого с ним комплекса лингвистических средств (классификаторов, словарей и лингвистических процессоров), ориентированных на обработку и поиск русскоязычных текстов, а также автоматический перевод с русского языка и на русский. В силу объема и сложности этой задачи и наличия общей заинтересованности в ее решении крайне целесообразно скоординировать в этом направлении финансовые и интеллектуальные ресурсы государственных и частных разработчиков" [3].

Для использования единого стандарта в масштабах Интернет необходимо наличие таких качеств, как простота, универсальность, в том числе и в решении правовых вопросов.

Среди имеющихся стандартов можно выделить разработанный автоматизированным библиотечным центром с интерактивным доступом в г. Дублин штата Огайо, США стандарт элементов метаданных Дублинского ядра (Dublin Core), в котором используется набор из десяти атрибутов стандарта ISO/IEC (ИСО 11179 - Спецификация и стандартизация элементов данных) для описания пятнадцати элементов данных (название, создатель, предмет, описание, издатель и др.) [4]. Набор содержит следующие десять атрибутов:

Шесть из перечисленных атрибутов являются обязательными для всех элементов Дублинского ядра. Это версия (1.1), орган регистрации (Инициатива метаданных Дублинского ядра), язык (английский), обязательность (произвольный), тип данных (цепочка символов), максимальная распространенность (неограниченна). Остальные атрибуты описываются каждый конкретным образом. Например,

Элемент: Название
Имя: Название;
Идентификатор: Title;
Определение: Имя, данное ресурсу;
Комментарий: Обычно это имя, под которым ресурс официально известен.

Атрибуты описывают такие пятнадцать элементов, как название, создатель (лицо, отвечающее за создание содержания ресурса), предмет (тема содержания ресурса), описание, издатель (лицо, ответственное за исполнение), соисполнитель (лицо, внесшее вклад в создание ресурса), дата (формат ГГГГ-ММ-ДД), тип (жанр содержания), формат (физическое или цифровое представление ресурса), идентификатор, источник (ссылка на ресурс, из которого извлечен настоящий), язык (в кодах, например, en, fr), отношение (ссылка на родственный ресурс), охват (протяженность на местности или временной промежуток, единицы административного деления), права (положение о правовых нормах или ссылка на службу, предоставляющую информацию о правах использования, лицензировании, авторских правах).

Эта информация должна заполняться автором документа, но может генерироваться и автоматически в момент запроса. Дублинское ядро предусматривает поддержку на всех языках и помогает решить вопрос маркировки документа простым способом, не требующим интенсивного обучения авторов и издателей.

Однако, несмотря на преимущества, Dublin Core не обладает в полной мере универсальностью (например, правовые аспекты, а также не всегда рационален выбранный перечень элементов) и без доработки его вряд ли можно взять в качестве единого стандарта.

Как более удобный для использования был предложен так называемый RDF - шаблон описания ресурса - метод обмена метаданными на основе языка XML, разработанный Консорциумом W3 в связке с системой метаданных Дублинского ядра.

Возможно, будет выбран или создан иной вариант стандарта, но, на наш взгляд, создание единого универсального набора элементов метаданных с жесткой структурой может препятствовать развитию этой структуры. Для большей гибкости целесообразным было бы использование объектного подхода.

Такой подход реализован во многих современных объектно-ориентированных базах данных и информационно-поисковых системах, к примеру, в программно-технологической платформе V7, разработанной фирмой 1С для комплекса автоматизации управления предприятиями.

В объектно-ориентированной технологии за основу берется понятие программного объекта, который представляет собой данные и процедуры работы с ними (методы) как единое целое (инкапсуляция), что обеспечивает свойства и поведение объекта, возможность управления им. В виде объекта может быть представлена информация разного рода - текстовые документы, графические, анимационные фрагменты, диалоговые окна и т.п. Визуализация объекта дает возможность пользователю легко работать с ним.

Преимущества объектного подхода заключаются не только в наглядности представления информации и удобства работы, но и в возможности создавать объекты-потомки, обладающие дополнительными свойствами и особенностями (принцип наследования и полиморфизма).

В случае с метаданными информационных ресурсов Интернет в качестве объектов могут выступать справочники, словари, документы, энциклопедии, каталоги, тезаурусы, рубрикаторы, словари для регистрации событий и т.д. На основе стандартных объектов метаданных можно создавать метаданные-потомки, в которые разработчики могли бы вносить необходимые изменения или добавлять дополнительные элементы описания.

Объекты метаданных могут включать в себя другие объекты. Например, дата может быть самостоятельным объектом и включаться в другие метаданные.

В результате описания объектов метаданных конкретного информационного ресурса его можно представить в виде иерархической структуры или дерева метаданных. Такая структура, по сути, является моделью этого ресурса, причем с хорошо прослеживаемой логической связью между объектами. Объектный подход позволит отойти от жесткой привязки формирования запросов к фиксированию структуры логических связей.

Для реализации объектного подхода необходимо создать библиотеку базовых объектов метаданных, поэтому предварительно должен быть проработан вопрос о стандартизации.

Конечно, на сегодня представляется достаточно сложным с помощью имеющихся программных платформ полностью реализовать объектно-ориентированную технологию для разработки системы метаданных информационных ресурсов Интернет, однако работа в этом направлении гарантирует указанные выше преимущества при хранении и организации поиска информации.


Литература.

[1] Антопольский А.Б. Системы метаданных в электронных библиотеках. http://www.gpntb.ru/win/inter-events/crimea2001/tom/sec4/Doc5.HTML

[2] Грищенко А., Макаренко И. Системы на основе метаописаний / Открытые системы. N 10. 2001.

[3] Концепция государственного регулирования негосударственными информационными ресурсами России. Проект Министерства Российской Федерации по связи и информатизации. П. 3.4.2. Москва, 2000.

[4] Набор элементов метаданных Dublin Core (Дублинского ядра). Справочное описание. 12 апр. 2001. http://dublincore.org/documents/usageguide/

[5] Современный словарь иностранных слов. М.: Изд-во "Рус. яз.", 1993.

[6] Что такое метаданные? http://www.ruslibnet.ru:8101/dc/dcmabout.htm



|Электронная библиотека| |Математические публикации| |Информационные ресурсы|
Ваши комментарии
Обратная связь
[SBRAS]
[Головная страница]
[Конференции]
[СО РАН]

© 2002, Сибирское отделение Российской академии наук, Новосибирск
© 2002, Объединенный институт информатики СО РАН, Новосибирск