VII Международная конференция по электронным публикациям "EL-Pub2002"
23-27 сентября 2002 г., г. Новосибирск, Академгородок

Структура тезауруса для описания математических Web ресурсов

Котенков М.В.
Институт вычислительных технологий СО РАН, Новосибирск

Многие современные поисковые системы, производящие поиск информации в Интернет по запросу, зачастую возвращают результаты, которые являются нерелевантными с точки зрения контекста запроса пользователя. Причиной этого служит в первую очередь отсутствие у ресурсов полного описания собственного информационного содержания, и вторая причина – неспособность поисковых роботов правильно интерпретировать такое описание, когда оно присутствует. Подобные описания строятся на основе схем формирования метаданных.

Задача создания единого каталога математических Интернет ресурсов состоит из двух частей: создание каталога и автоматическая его поддержка. Поддержка каталога включает в себя поисковую систему, распознающую подходящие ресурсы, классификационные таблицы (классификаторы) для анализа документа, модуль проверки актуальности ресурсов каталога и систему обработки запросов пользователя. Создание каталога в первую очередь подразумевает выбор формата описания документов. Иными словами, выработку концепции внутреннего представления информации о ресурсах (в дальнейшем будем отождествлять ресурс с документом). В данном случае модель метаданных системы будет построена следующим образом. Для описания документа мы используем объекты, обладающие некоторым набором атрибутов, обязательных и необязательных. Сами объекты организованы в виде определенной иерархической структуры – каталога. Атрибуты описываются в виде DTD элементами словаря GILS, с добавлением терминов специфичных для математической области.

Последующий список представляет собой ту часть атрибутов, которая взята из словаря GILS(символом «*» помечены обязательные атрибуты):
Abstract (резюме)* – сокращенное описание документа, представляет собой повествовательное описание документа. Изложение должно давать основную информацию, позволяющую пользователю решить, имеет ли документ достаточную значимость, для того чтобы обратиться к поставщику за дальнейшей информацией. Резюме не следует делать длиннее 500 слов;
Author (автор)* – один или группа авторов, также может быть названием конференции или встречи;
Code_language (язык)* – код языка документа;
Content_type (контекст)* – тип содержания;
Date (дата)* – дата документа
Date_publication(дата публикации) – дата помещения документа в каталог;
Date_acquisition(дата проверки) – дата последней проверки доступности документа;
Date_modification(дата модификации) – дата последнего изменения документа;
Name_publisher (имя издателя) – организация, отвечающая за публикацию документа;
Name_corporate (имя организации) – организация или группа лиц, которая идентифицируется одним именем;
Description (описание)* – краткое изложение, может содержать ссылки на другие документы;
Subject (тема) – тема документа;
Title (заголовок)* – заголовок документа, этот атрибут передает наиболее отличительные стороны документа и предназначен для первоначального представления пользователям независимо от остальных атрибутов. Он должен давать достаточно информации, позволяющей пользователю сделать заключение о соответствии документа запросу пользователя;
Purpose (назначение)* – описывает почему документ предлагается вниманию. Этот атрибут может содержать источник и происхождение документа;
Status (статус)* - определяет состояние документа (статичность, версия и т.п.), возможность создания копий документа и/или наличие оригинала, наличие авторского и имущественного прав.

Элементы словаря, выражающие тип(Structure attributes):
Word – слово состоит из группы не пустых символов;
Date – день, месяц, год и время (формат YYYYMMDDHHMMSSZ, где YYYY = год, MM = месяц, DD = день, HH = час, MM = минтуы, SS = секунды; Z = время в формате Universal Time), кроме того, дата может быть представлена без временной компоненты;
Word list – состоит из одного или нескольких слов разделенных пробелами;
Structure – тип структура, описывает составной тип объекта;
Urx – идентификатор документа, может быть URI;
String – строка, в отличие от word list рассматривается целиком, без разделения на отдельные слова;
Numeric string – строка, представляющая собой число;
Text – состоит из одной или нескольких строк.
Структурные атрибуты используются для описания типов объектов в спецификации DTD.

Литература

1: Официальный сайт GILS – www.gils.net
2: Dublin Core Metadata Initiative – dublincore.org
3: U.S. Geological Survey – www.usgs.gov

Ваши комментарии
Обратная связь

[Головная страница]
[Конференции]
[СО РАН]