VII Международная конференция по электронным публикациям "EL-Pub2002"

23-27 сентября 2002 г., г. Новосибирск, Академгородок

Автоматизированная информационная система создания и поддержки электронного архива документов

Марчук А.Г., Немов А.Н., Федоров К.В.,
Институт Систем Информатики СО РАН, Новосибирск
Антюфеев С.В.
ИксТех, Новосибирск

1. Введение.

Накопление архивного материала - это лишь одна проблема, стоящая перед архивистами. Даже небольшие архивы могут содержать порой несколько сотен тысяч различных документов.

Еще одна проблема - структурирование имеющегося материала.

Еще один немаловажный аспект в работе архива - в силу физической сущности хранимых в нем документов - большинство из них хранятся в оригиналах и на бумажных носителях, зачастую невозможна одновременная работа нескольких специалистов с одним и тем же документом.

Также, в процессе работы с документами, они изнашиваются, пропадают, поэтому в целях сохранения и поддержания архива приходится или ограничивать круг его пользователей, или делать многочисленные копии документов, или тратить труд персонала и материальные средства на приведение документов к первоначальному виду. Причем подобные процедуры надо проводить с некоторой периодичностью.

Некоторые посетители, физически расположенные далеко, хотят взглянуть на архив, но при этом, в силу разных причин, хотят совершить как можно меньше перемещений, или, еще лучше, вообще остаться в своем кресле.

Некоторые посетители хотели бы ознакомиться не только с содержанием документа на оригинальном языке, но и с его различными переводами на доступный для них язык.

Становится очевидным, что существующие традиционные "бумажные" методы работы с архивами не совсем удобны для работы, что для полноценной и эффективной работы одним лишь бумажным архивом не обойтись.

Возникает необходимость в создании "электронной" версии "бумажного" архива.

Разработке и созданию информационной системы электронного архива документов посвящена данная работа.

2. Постановка задачи

Так как данный архив изначально подразумевается как электронная копия уже имеющегося, то в первую очередь необходимо проработать технологии преобразования уже имеющихся бумажных документов к электронному виду, а точнее, к нескольким различным представлениям; также должна быть разработана и реализована удобная в использовании информационная система хранения документов.

2.1 Общая структура системы

Такая информационная система должна состоять из следующих основных компонентов:

2.2 Основные требования к системе

Сформулируем основные требования к такой системе. Информационная система должна:

Система должна быть многопользовательской. Она должна работать в режиме реального времени.

Система должна обеспечивать различное структурирование хранимых документов. Должна предоставлять доступ к различным представлениям документов (например, текстовое, графическое, гипертекстовое, аннотационное представления), а также к данным архива, связанным с ним.

Принимая во внимание то, что даже отдельный документ может содержать в себе текст, написанный на нескольких различных языках, а также то, что в системе может храниться не только сам оригинальный распознанный текст, но и многочисленные его переводы, становится ясно, что система должна поддерживать многоязыковость.

Система должна функционировать по возможности автономно, чтобы вмешательство в ее работу человека происходило только тогда, когда оно действительно необходимо.

3. Методы решения

Такие компоненты, как "интерфейсы оператора" и "интерфейс конечного пользователя" реализованы в трехуровневой архитектуре клиент-сервер и сделать их Web-ориентированными. Именно это позволило наиболее эффективно решить задачи одновременного многопользовательского доступа и доступность системы из практически любых мест, отсутствие необходимости в специальном оборудовании таких мест.

Утилиты же должны быть в силу своей специфики более привязанными к рабочему месту, но все же иметь, где необходимо, связь с базой данных архива. Одно из самых простых и надежных решений - реализовать их как системные приложения.

Так как система создавалась "с нуля", было необходимо помимо разработки компонентной совокупности также разработать и физическую модель базы данных, которая в полной мере бы отражала сущности хранимой в архиве информации.

4. Реализация

Каждый документ может являться не только графическим изображением, но и нести другую смысловую нагрузку, а также информацию о связанных с ним объектах.

Наиболее часто встречаемые связанные объекты можно выделить, рассмотреть и хранить отдельно.

Теоретически у каждого документа, есть автор или группа авторов. Также можно выделить тех людей, которым документ адресован. Практически всегда можно выделить людей, которые упоминаются в документе. Таким образом, в нашей информационной системе четко прорисовывается необходимость в связях типа Документ-Человек.

Следует отметить, что документ также может быть отдельно связан с городом, страной и организацией, а эти объекты - между собой.

Но с организацией может быть связан и человек: анализируя содержимое документов, зачастую можно понять, какой человек, когда, какую должность в какой организации занимал.

Результатом анализа документов может также стать набор ключевых слов, которые можно связать с ним, по которым он в дальнейшем может быть найден.

4.2 База данных

В результате проведенного анализа стало возможным составить физическую модель базы данных информационной системы.

Физическая модель базы данных в ее настоящем состоянии включает в себя около 60 таблиц, несколько представлений и хранимых процедур.

4.3 Интерфейсы оператора, пользователя архива

Действия, проводимые предложенными интерфейсами оператора, позволяют редактировать содержимое практически всех таблиц базы данных. Содержимое остальных таблиц редактируется системными утилитами.

В наборе интерфейсов конечного пользователя архива предоставляется возможность ознакомиться с документами архива с помощью обоих типов иерархической структуры классификации документов, логической и физической.

Также реализована удобная поисковая система.

Реализован удобный просмотр всех перечисленных выше представлений документов.

Имеется не только возможность просмотра документов, но и возможность прохода по всем ссылочным данным, ведущим от этого документа с выдачей полной информации по ним.

По сути, пользовательский интерфейс реализован как отдельный Web-сайт.

4.4 Вспомогательные утилиты

Часто рутинную и трудоемкую работу оператора необходимо автоматизировать.

Пример - сканирование большого количества практически однотипных по качеству документов (а, следовательно, настройки сканера должны быть одинаковы для всех из них).

Утилита сканирования позволяет при заданных ей начальных условиях сканировать поток документов за одно нажатие кнопки для одного листа.

Еще одна утилита позволяет заносить информацию о большом количестве файлов в базу данных. Она также производит замещение хранящейся в базе данных устаревшей информации, касающейся файлов.

Третья утилита - утилита синхронизации информационной наполняющей базы данных архива с географически удаленным зеркалом.

5. Заключение

Данная работа посвящена разработке и созданию информационной системы электронного архива документов.

В рамках работ по созданию электронного архива была разработана общая концепция создания архива, его архитектура, разработана модель данных электронного архива, поддерживающая различные представления документов (текстовое, графическое, гипертекстовое, аннотационное), разработана технология и инструментальные средства для создания (наполнения, редактирования и актуализации данных) и дальнейшей работы над материалами архива, их изучения и анализа.

Разработка программного обеспечения состояла из четырех больших и достаточно независимых частей: разработки самой информационной модели системы, разработки и реализации интерфейсов операторов и конечного пользователя, разработка и реализация некоторого набора вспомогательных утилит и программ.

Рассмотренная информационная система была внедрена в эксплуатацию на примере создания электронного архива документов академика Андрея Петровича Ершова.

В рабочей эксплуатации архив функционирует с начала 2001 года. С его реализацией можно ознакомиться на сайте http://ershov.ras.ru/ (пользовательская часть) и http://www.iis.nsk.su:81/archive/backend (набор функциональных интерфейсов для операторов).

Особенность данной работы состоит в том, что авторы самостоятельно "с нуля" разрабатывали как общую концепцию и структуру информационной системы, так и физическую модель базы данных.

В силу универсальности созданной информационной системы, она легко может быть применена для создания других не менее интересных в научном и историческом плане электронных архивов документов схожей тематики.

Дальнейшее развитие системы также возможно, путем добавление новых необходимых функционалов как в пользовательскую и операторскую части системы, так и в физическую модель базы данных.



|Электронная библиотека| |Математические публикации| |Информационные ресурсы|
Ваши комментарии
Обратная связь
[SBRAS]
[Головная страница]
[Конференции]
[СО РАН]

© 2002, Сибирское отделение Российской академии наук, Новосибирск
© 2002, Объединенный институт информатики СО РАН, Новосибирск