Информационная система "Конференции"



IV Всероссийская конференция молодых ученых по математическому моделированию и информационным технологиям

Красноярск, Академгородок, 3-5 ноября 2003 года

Тезисы докладов


Информационные технологии

Проект "Web-ресурсы матеметического содержания" как часть глобальной Семантической Сети

Гуськов А.Е.

Институт вычислительных технологий СО РАН (Новосибирск)

В настоящее время в сети Интернет существуют десятки миллионов систем и сайтов, публикующих самую разнообразную информацию. При этом лишь единицы из них снабжают свои ресурсы каким-либо метаописанием – информацией о самом ресурсе, которая может быть понятна внешним, интеллектуальным программам-агентам.

В виду отсутствия достоверного способа сказать хоть что-то о содержании произвольно взятого из Сети документа, ни одна глобальная поисковая система сейчас не в состоянии предоставить пользователям возможность искать ресурсы иными способами, кроме как по вхождению набора ключевых слов. Так, не существует приемлемого способа найти все статьи, автором которых является некто Вася Пупкин, или все ресурсы, посвященные математической логике. С другой стороны, все острее встает проблема интеграции разнородных ресурсов – объединения накопленных в электронном виде данных в единое информационное пространство.

При создании информационной системы «Web-ресурсы математического содержания» разработчикам следует учесть неизбежность появления указанных проблем и найти перспективные варианты их разрешения.

Заслуживающим наибольшего внимания автор доклада считает идеи, изложенные в рамках проекта «Semantic Web» [1] инициированного W3С-консорциумом, согласно которым предлагается снабжать ресурсы формализованным метаописанием, описывающим их содержание. В качестве основного формата метаописания рекомендуется использовать язык RDF (Resource Description Framework) [2] в виду ряда преимуществ над языком разметки данных XML, наиболее значимым из которых является наличие у первого средств задания семантики ресурсов. При этом подразумевается, что RDF-модель вписывается в некоторую схему, детально описывающую предметную область – онтологию. При их анализе специальные интеллектуальные программы способны получить и вывести ряд утверждений о содержании ресурса, которые могут быть использованы в дальнейшем при «семантическом» поиске.

Например, найдя и обработав ранее ресурс, посвященный теории доказательств, поисковая система будет в дальнейшем включать его в результаты поиска ресурсов о математике или о математической логике, но не добавит его в результаты поиска документов, посвященных математическому анализу.

Какие же шаги нужно предпринять при разработке системы «Web-ресурсы математического содержания» для ее включения в единое глобальное информационное пространство? Прежде всего, нужно четко обозначить модель предметной области (МПО) в рамках которой будет функционировать система. Согласно поставленным в проекте задачам, МПО должна включать отображения следующих сущностей: организации (а также институты и электронные библиотеки, как их подклассы), программные продукты, газеты, журналы и прочие издания. Естественно предположить существование логических связей между ними, а также наличие дополнительных сущностей: персоны, как авторы книг и статей, страны и, возможно, города, к которым относятся организации. Степень детализированности отображения реальных сущностей в МПО определяется целями всего проекта и конкретной его подзадачей, связанной с той или иной сущностью.

После определения МПО необходимо получить его формализованное описание – онтологию. Это можно сделать двумя способами – попытаться найти существующую онтологию аналогичной МПО, либо создать собственную. Предпочтительней использовать уже разработанные онтологии, которые были созданы компетентными людьми, и потому являются весьма качественным описанием МПО. Проблема заключается в том, что такие онтологии сделаны лишь для наиболее распространенных областей человеческой деятельности и небольшого числа хорошо формализуемых сфер науки. Так, в стэнфордском университете была разработана обобщенная онтология научной деятельности «Science» [3], описывающей людей, организации, публикации, проекты и программные продукты, различные события в научной сфере. Эту онтологию целесообразно использовать для обозреваемого в докладе проекта «Web-ресурсы математического содержания».

Одно из центральных мест проекта занимает Классификатор математических сущностей (Mathematics Subject Classification) [4], используемый ведущими мировыми реферативными изданиями: «Mathematics Review» и «Zentralblatt MATH». Классификатор имеет трехуровневую структуру древовидного каталога, верхний уровень которого соответствует большим разделам математики, а нижние уровни – их подразделам, причем каждому разделу и подразделу соответствует уникальный код. К сожалению, нам не удалось найти онтологии, соответствующей этому классификатору. Заметим, что эта онтология более полно бы отображала отношения между математическими дисциплинами. Например, подраздел «Algebraic groups» (код 14Lxx) находится в разделе «Algebraic geometry», а «Linear algebraic groups» (код 20Gxx) – в «Group theory and generalizations», хотя логичнее было бы ожидать, что второй должен быть подразделом первого. Попытка разработчиков Классификатора исправить этот недостаток путем добавления к разделам вспомогательных ссылок на ассоциированные с ними другие разделы еще раз наглядно демонстрирует недостаточность древовидной организации при создании МПО.

Из всего вышесказанного следует целесообразность разработки онтологии математических дисциплин. При этом рекомендуется сохранить исходную структуру Классификатора, расширив ее дополнительными логическими связями, конкретизирующими отношения между разделами. Полученную онтологию следует представить организации American Mathematical Society [5] для получения ее комментариев и рекомендаций, а также возможности ее публикации в качестве перспективной альтернативы существующему Классификатору.

Также с полученной онтологией математических дисциплин надлежит связать онтологию научной деятельности, чтобы иметь возможность связывать организации и публикации, хранящиеся в базе данных проекта, с конкретными математическими областями.

После подготовки онтологического описания МПО и предоставления к нему публичного доступа, остается снабдить документы разрабатываемой информационной системы описанием, согласованным с указанной онтологией. Один из путей, предлагаемых проектом Semantic Web, это включение в HTML-код страницы метаописания на языке RDF в так называемом сокращенном формате, не влияющем на визуальное представление HTML-документа в браузере. В совокупности с онтологией метаописание будет использовано внешними программными агентами для получения и анализа смыслового содержания документа.

Метаописание может быть сформировано теми же скриптами, что и остальная HTML-страница, однако автор рекомендует рассмотреть систему публикации документов SMART [6]. В ее основе лежит представление коллекций документов в виде RDF-описания ее содержания и применяемого к нему стилевого шаблона. Такой подход дает разработчикам информационных систем ряд преимуществ, среди которых явное отделение содержания документа от его представления, а также возможность работать с документами на уровне их логики, а не на уровне формирующего их программного кода. Более подробно система SMART описана на сайте http://web.ict.nsc.ru/smart.

В заключении отметим, что изложенные в докладе проблемы остро стоят перед интернет-сообществом в данное время и требуют совместного участия в их решении всех его членов. Одним из путей разрешения этих задач является представленный в докладе подход к разработке системы «Web-ресурсы математического содержания», который может быть применен и при построении других информационных систем, ориентированных на Web.

Литература

[1] Semantic Web Activity; http://www.w3.org/2001/sw/

[2] Resource Description Framework (RDF) Model and Syntax Specification, W3C Recommendation, Февраль 1999; http://www.w3.org/TR/1999/REC-rdf-syntax-19990222

[3] Ontology of SCIENCE; http://protege.stanford.edu/ontologies/ontologyOfScience/ontology_of_science.htm

[4] Mathematics Subject Classification; http://www.ams.org/msc/

[5] American Mathematical Society: Mathematics Research and Scholarship; http://www.ams.org/

[6] SMART: System for Managing Applications based on RDF Technology; http://web.ict.nsc.ru/smart/

Примечание. Тезисы докладов публикуются в авторской редакции



Ваши комментарии
Обратная связь
[ICT SBRAS]
[Головная страница]
[Конференции]

© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск