Конференции ИВТ СО РАН



VIII Всероссийская конференция молодых ученых по математическому моделированию и информационным технологиям

27 - 29 ноября 2007 года, Новосибирск

Тезисы докладов


Научно-инновационный конкурс «У.М.Н.И.К.»

Приложение для автоматизированного сбора и обработки однородной слабоструктированной информации

Ведерников В.В.

НГУ (Новосибирск)

При создании информационных систем удаленного доступа (включая базы данных, каталоги веб-документов и т.п.) необходима автоматизация процессов сбора информации в сети Интернет и ее последующей обработки. Проблема автоматизации обработки информации возникает и в тех случаях, когда ее источником являются не веб-ресурсы, а, например, массивы оцифрованных документов.

Для решения этой задачи мною разработано и реализовано веб-приложение.

Работа приложения основана на шаблонах. Шаблон – набор данных (в частности, записей в базе данных), описывающий, какая информация должна извлекаться из определенного ресурса. Шаблон описывает поля, которые необходимо извлечь, и содержит следующую информацию о каждом поле: название извлекаемого поля, ограничивающие теги, шаблон (pattern) информации, содержащейся в поле. Дополнительно шаблон может содержать информацию о том, содержит ли ресурс множественные экземпляры извлекаемых данных, и если да, то шаблон разделителя этих данных. В предлагаемом веб-приложении шаблон описывает ограничивающие теги поля и шаблон данных внутри поля с помощью регулярных выражений.

Приложение, созданное на основе этой модели, обладает следующими функциональными возможностями:
1. Создание шаблона.
2. Редактирование существующего шаблона.
3. Задание списка ресурсов для обработки.
4. Обработка ресурсов.

Подробнее о каждой функции.
1. Cоздание шаблона происходит для существующей таблицы в базе данных, впоследствии в которую записывается извлекаемая информация. При создании шаблона необходимо указать его название, отметить, какие поля таблицы использовать для извлечения информации. Также есть возможность сделать заполнения полей статической информацией (например, указывать название электронного журнала при создании базы данных статей).
2. При редактировании можно изменить информацию только о уже использующихся полях шаблона, для добавления новых полей необходимо создать новый шаблон, . при этом есть возможность удалить шаблон.
3. Адреса ресурсов для обработки сохраняются в базе. Для каждого адреса указывается шаблон, по которому ресурс будет впоследствии обрабатываться. Можно указывать, в том числе, локальные файлы. При указании адресов Интернет есть возможность указать адрес страницы, которая содержит адреса необходимых для обработки ресурсов.
4. Возможна обработка отдельного адреса или базы, куда ранее были внесены адреса ресурсов для обработки.

Дополнительно в веб-приложении реализована возможность, не имеющая прямого отношения к шаблонам: отслеживание актуальности ссылок на ресурсы и, при необходимости, обработка новых ресурсов по шаблону. При этом указывается название ресурса и список адресов верхнего уровня, по которым необходимо отслеживать актуальность ссылок (например, оглавление электронного журнала). При этом возможен автоматический запуск обработки новых ресурсов, которые не были до этого обработаны.

Разработанное веб-приложение может представлять интерес для разработчиков информационных систем (прежде всего, научной направленности), а также для создателей каталогов тематических ресурсов сети Интернет.

Примечание. Тезисы докладов публикуются в авторской редакции



Ваши комментарии
Обратная связь
[ICT SBRAS]
[Головная страница]
[Конференции]

© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск