В ГПНТБ СО РАН создается несколько полнотекстовых баз данных: - Издания ГПНТБ СО РАН; - Экологические обзоры; - Учебные пособия центра непрерывного образования; - Коллекции Фонда редких книг и рукописей. Последняя база данных будет описана отдельно, первые же три БД создаются по одной технологии. Но вначале об исходных данных.
По сути вся информация трех видов:
Основная часть информации - текстовая и лишь небольшой объем составляют иллюстративные материалы.
Наиболее существенной трудностью является то, что информация, подготовленная за ряд лет, представлена в различных форматах, создана с использованием разнообразных программных средств и их версий, включая устаревшие. Использовалось такое программное обеспечение, как Лексикон, Microsoft Word, PageMaker, Ventura - все нескольких версий.
Для объединения всей этой разнокалиберной информации в единую полнотекстовую базу данных требовалось выбрать единый формат. И таким форматом, безусловно, является PDF.
В зависимости от вида документа проводилось его разбиение на PDF файлы и устанавливались необходимые ссылки.
Через единую систему доступа пользователь может получить как отдельные части, так и документы в полном комплекте. Например, можно получить отдельные статьи сборника или весь сборник полностью. В настоящий момент подготовлено и обеспечен доступ через Интернет к 10 изданиям ГПНТБ СО РАН (сборники научных трудов и монографии); 2 экологическим обзорам (в БД описано 50 обзоров и ведется работа по подготовке полных текстов); 4 учебным пособиям центра непрерывного образования.
В электронную библиотеку ГПНТБ СО РАН также включаются издания Фонда редкой книги - это книги, рукописи и другие источники многовековой давности. В качестве первой в электронную форму переведена коллекция ?Прижизненные издания А.С. Пушкина в Фонде редкой книги ГПНТБ СО РАН?.
Опишем технологию обработки этой коллекции, реализованную в ГПНТБ СО РАН.
Основной целью, поставленной при создании БД, явилось предоставление широкому кругу исследователей и читателей возможности работать с полными текстами прижизненных изданий А.С. Пушкина из фонда редких книг и рукописей ГПНТБ СО РАН в их электронном варианте, т.е. в своего рода виртуальном фонде редкой книги.
Первый аспект, который вполне ясен - то, что технически доступ должен обеспечиваться через Internet, также БД можно записывать на CD-ROM для локального просмотра.
Вторая часть задачи - адекватность отображения экземпляров коллекции - гораздо сложнее. Единого решения, подходящего для самых различных по тематике коллекций фонда, скорее всего не существует и требуется отдельное тщательное изучение каждого отдельного собрания.
Экземпляры прижизненных изданий А.С. Пушкина из нашего фонда характеризуются следующими основными чертами:
Нами было опробовано несколько десятков схем сканирования и последующей обработки изображений. В результате мы остановились на следующем варианте:
Примечание. Тезисы докладов публикуются в авторской редакции
Ваши комментарии А.М.Федотов |
[Головная страница] [Конференции] [СО РАН] |
© 1999, Сибирское отделение Российской академии наук, Новосибирск