Конференции ИВТ СО РАН


V Всероссийская конференция молодых ученых по математическому моделированию и информационным технологиям с участием иностранных ученых

1-3 ноября, г. Новосибирск, Россия

Тезисы докладов


Информационные технологии

Роль метаязыков в системах сбора данных из недружественных источников

Энтин Г.М.

Институт Вычислительных Технологий СО РАН (Новосибирск)

Определение недружественных источников данных

Необходимо различать недружественные источники данных (НИД) от достаточно хорошо изученных слабоструктурированных (ССИД) и неструктурированных источников (НСИД). Под ССИД обычно подразумеваются полностью структурированные источники данных (СИД), у которых не известна схема или схема является частью самих данных. Под неструктурированными ИД – те, у которых есть только примитивная структура.

Примером НСИД может являться файл с литературным текстом, а ССИД – генетическая база данных.

Особенностью НИД является то, что источник никак «не помогает» потребителю данных. Часто, данные являются полностью структурированными, но потребитель не имеет полной формально описанной схемы данных. Другими особенностями являются следующие:

а. Сложная схема данных (в отличии от ССИД, в которых схемы очень просты).
б. Нет формально описанного протокола доступа к данным.
в. Протокол доступа не рассчитан на автоматизированный сбор данных.
г. Протокол доступа сложен и требует использования специализированного ПО.
д. Протокол и схема данных подвержены изменениям, о которых не известно заранее.
е. Необходим контроль за качеством получаемых данных.
ж. Нет гарантированной доступности источников данных.

Актуальность проблемы

Хотя НИД могут рассматриваться как ССИД или НСИД, ценность таких исследований не велика, в силу перечисленных выше особенностей. В последнее время проблема сбора данных из НИД проявляется весьма часто. Вот некоторые области, где встречаются НИД:
- библиотечное дело,
- статистика,
- риэлтерская деятельность,
- банковская деятельность,
- маркетинг и рыночная аналитика,
- системы поиска.

Роль метаязыков

Метаязыки часто используют при преобразованиях полностью структурированных данных между разными схемами. Оказывается возможным использовать их и для НИД, но не только для преобразования, а гораздо шире:

а. Описание протоколов и сценариев доступа к данным.
б. Описание правил разбора данных.
г. Описание правил нормализации и очистки данных.
д. Контроль качества полученных данных:
- контроль за протоколом доступа,
- контроль за исходной схемой данных,
- контроль за качеством разбора, очистки и нормализации данных.
е. Выявление и исправление ошибок формата данных.

[1] Serge Abitebou. Querying semi-structured data. In Proceedings of ICDT, Jan 1997.
[2] Lopez, M. and Smith, D.J., "Information extraction for semi-structured documents", In Proc. Workshop on Management of Semi-structured Data, 1997.
[3] J. Thierry-Mieg and R. Durbin, "Syntactic Definitions for the ACEDB Data Base Manager" Tech Report MRC Laboratory for Molecular Biology, Cambridge, CB2 2QH, UK, 1992.
[4] J. Cowie and W. Lehnert, Information Extraction, CACM 39(1), 80-91, 1996.

Примечание. Тезисы докладов публикуются в авторской редакции



Ваши комментарии
Обратная связь
[ICT SBRAS]
[Головная страница]
[Конференции]

© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск