Информационная система "Конференции"

Международная конференция молодых ученых по математическому моделированию и информационным технологиям

29-31 октября 2002 года, Новосибирск, Академгородок

Тезисы докладов

Информационные технологии

Обработка статистической информации в информационной системе "Биоразнообразие животного и растительного мира Сибири"

Столяров С.В.

Институт вычислительных технологий СО РАН (Новосибирск)

Рассматривается задача добавления к информационной системе, предназначенной для накопления экспериментальной информации, модуля статистической обработки накопленных данных.

Основная идея решения задачи состоит в создании специализированного языка описания данных и алгоритмов и реализации модуля позволяющего использовать этот язык для обработки поступающей и имеющейся информации.

В исходной версии системы (доступной по адресу http://www.ict.nsc.ru/win/elbib/at) данные хранятся в иерахии Документ/Коллекция. Коллекция представляет собой набор документов, имеющих одинаковую структуру. Документ определяется количеством и типом объектов, из которых он состоит. Обычно в одну коллекцию попадают документы описывающие, например, один вид растений или группу измерений некоторых растений, поэтому подлежащие обработке данные могут находиться как в отдельном документе, так и в самой коллекции в целом.

Разрабатываемую систему можно условно поделить на несколько абстрактных частей: хранилище данных, хранилище процедур и хранилище программ. Под процедурой здесь следует понимать программу статистической обработки, под программой — некоторый текст, определяющий как будут обрабатываться данные. Взаимодействие этих частей можно представить следующим образом. Из хранилища данных берутся некоторые данные, которые поступают на вход некоторой функции. Функция разбирает эти данные в соответствии с некоторой программой из хранилища программ, приводя данные к внутреннему представлению, и в соответствии с той же программой вызывает из хранилища процедур соответствующую процедуру, которая и обрабатывает эти данные. Затем полученный результат опять в соответствии с программой преобразуется и записывается в базу.

Отсюда сразу можно сформулировать требования к языку программ, то есть что он должен описывать:

структуру входных данных, т.е. пользователь не обязан вводить их в каком-либо фиксированном формате;
структуру выходных данных;
способ обработки данных с помощью имеющихся процедур.

Различные элементы цепочки Исходные данные-Процедура-Выходные данные ничего не обязаны знать о структуре друг друга, все связи между ними определяются исключительно программой. Из-за того, что система делается для биологов, предполагается также сделать удобный визуальный web-интерфейс для написания/редактирования программ обработки данных, а также набор типичных шаблонов таких программ.

Ввиду большого объема исходных данных, считается нецелесообразным, проводить обработку на языке PHP, на котором написана система, и поэтому целесообразнее использовать программы, написанные на компилируемых языках достаточно низкого уровня. Все расчеты производятся только при модификации информации в коллекции и готовые результаты сохраняются в базе данных, и по запросу клиента о просмотре документа коллекции, выдаются именно эти сохраненные результаты.

Литература

1. Сборник научных программ на фортране,т.2.-М:Статистика, 1974.

Дополнительные материалы: HTML
Примечание. Тезисы докладов публикуются в авторской редакции

Ваши комментарии
Обратная связь

[Головная страница]
[Конференции]

© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск
Дата последней модификации: 06-Jul-2012 (11:47:01)