IV рабочее совещание по электронным публикациям - EL-PUB-99

Новосибирск, Академгородок, ИВТ СО РАН, 21 - 23 апреля 1999 года.

Тезисы докладов


Технология создания полнотекстовых документов в ГПНТБ СО РАН

Шабанов А.В., Баженов С.Р.

Государственная публичная научно-техническая библиотека СО РАН (Новосибирск)

В ГПНТБ СО РАН создается несколько полнотекстовых баз данных: - Издания ГПНТБ СО РАН; - Экологические обзоры; - Учебные пособия центра непрерывного образования; - Коллекции Фонда редких книг и рукописей. Последняя база данных будет описана отдельно, первые же три БД создаются по одной технологии. Но вначале об исходных данных.

По сути вся информация трех видов:

Основная часть информации - текстовая и лишь небольшой объем составляют иллюстративные материалы.

Наиболее существенной трудностью является то, что информация, подготовленная за ряд лет, представлена в различных форматах, создана с использованием разнообразных программных средств и их версий, включая устаревшие. Использовалось такое программное обеспечение, как Лексикон, Microsoft Word, PageMaker, Ventura - все нескольких версий.

Для объединения всей этой разнокалиберной информации в единую полнотекстовую базу данных требовалось выбрать единый формат. И таким форматом, безусловно, является PDF.

В зависимости от вида документа проводилось его разбиение на PDF файлы и устанавливались необходимые ссылки.

Через единую систему доступа пользователь может получить как отдельные части, так и документы в полном комплекте. Например, можно получить отдельные статьи сборника или весь сборник полностью. В настоящий момент подготовлено и обеспечен доступ через Интернет к 10 изданиям ГПНТБ СО РАН (сборники научных трудов и монографии); 2 экологическим обзорам (в БД описано 50 обзоров и ведется работа по подготовке полных текстов); 4 учебным пособиям центра непрерывного образования.

В электронную библиотеку ГПНТБ СО РАН также включаются издания Фонда редкой книги - это книги, рукописи и другие источники многовековой давности. В качестве первой в электронную форму переведена коллекция ?Прижизненные издания А.С. Пушкина в Фонде редкой книги ГПНТБ СО РАН?.

Опишем технологию обработки этой коллекции, реализованную в ГПНТБ СО РАН.
Основной целью, поставленной при создании БД, явилось предоставление широкому кругу исследователей и читателей возможности работать с полными текстами прижизненных изданий А.С. Пушкина из фонда редких книг и рукописей ГПНТБ СО РАН в их электронном варианте, т.е. в своего рода виртуальном фонде редкой книги. Первый аспект, который вполне ясен - то, что технически доступ должен обеспечиваться через Internet, также БД можно записывать на CD-ROM для локального просмотра.
Вторая часть задачи - адекватность отображения экземпляров коллекции - гораздо сложнее. Единого решения, подходящего для самых различных по тематике коллекций фонда, скорее всего не существует и требуется отдельное тщательное изучение каждого отдельного собрания.
Экземпляры прижизненных изданий А.С. Пушкина из нашего фонда характеризуются следующими основными чертами:

Добавим к вышеперечисленному ограничение по объемам информации - размер каждого образа (?снимка? страницы) не должен превышать 100-200 КБ, иначе (в современных реальных условиях доступа в России) работа в online-режиме будет нереальна.

Нами было опробовано несколько десятков схем сканирования и последующей обработки изображений. В результате мы остановились на следующем варианте:

  1. страницы сканируются с разрешением 200 пиксел на дюйм как четкие черно-белые фотографии;
  2. изображения кадрируются;
  3. проводится тоновая коррекция;
  4. в сборниках тексты, не принадлежащие А.С. Пушкину, затеняются;
  5. полученный образ сохраняется в tiff формате;
  6. меняется размер образа (в пикселах) для обеспечения удобного просмотра на экране монитора при разрешении не ниже 800*600;
  7. полученное изображение сохраняется в Jpeg формате (среднего уровня сжатия);
  8. проводится небольшая ретушь Jpeg образа.
Jpeg образы ?собираются? вместе с использованием гипертекстов - это вариант для Internet. Навигация реализована средствами JavaScript. Из tiff образов ?собирается? единый файл в pdf формате. Каждый образ обрабатывался 7-10 раз. По ходу сканирования и обработки использовалось около 6 Гб дискового пространства. На CD-ROM записывается как вариант для Internet, так и pdf файлы. Созданная коллекция характеризуется следующими величинами:

Примечание. Тезисы докладов публикуются в авторской редакции



|Электронная библиотека| |Математические публикации| |Информационные ресурсы|
Ваши комментарии
А.М.Федотов
[SBRAS]
[Головная страница]
[Конференции]
[СО РАН]

© 1999, Сибирское отделение Российской академии наук, Новосибирск