V рабочее совещание по электронным публикациям - EL-PUB-2000

Новосибирск, Академгородок, ИВТ СО РАН, 21 - 23 июня 2000 г.

Тезисы докладов


Пленарные заседания

Создание полнотекстовой базы данных "Памятники пушкинской эпохи в Фонде редких книг и рукописей ГПНТБ СО РАН"

Шабанов А.В., Баженов С.Р.

Государственная публичная научно-техническая библиотека СО РАН (Новосибирск)

Электронная библиотека ГПНТБ СО РАН состоит из нескольких полнотекстовых баз данных:

Для объединения всей этой разнокалиберной информации в полнотекстовые базы данных требовалось выбрать единый формат. И таким форматом, безусловно, является PDF.

Через единую систему доступа пользователь может получить как отдельные части, так и документы в полном комплекте.

На предыдущем совещании мы подробно описали технологию создания каждой из баз данных.

Поскольку БД "Памятники пушкинской эпохи в Фонде редких книг и рукописей ГПНТБ СО РАН" является развитием работ над коллекцией ?Прижизненные издания А.С. Пушкина в Фонде редкой книги ГПНТБ СО РАН? кратко опишем технологию обработки этой коллекции, реализованную в ГПНТБ СО РАН.
Наиболее сложная часть задачи - адекватность отображения экземпляров коллекции. Единого решения, подходящего для самых различных по тематике коллекций фонда, скорее всего не существует и требуется отдельное тщательное изучение каждого отдельного собрания.

Нами было опробовано несколько десятков схем сканирования и последующей обработки изображений. В результате мы остановились на следующем варианте:

  1. страницы сканируются с разрешением 200 пиксел на дюйм как четкие черно-белые фотографии;
  2. изображения кадрируются;
  3. проводится тоновая коррекция;
  4. в сборниках тексты, не принадлежащие А.С. Пушкину, затеняются;
  5. полученный образ сохраняется в tiff формате;
  6. меняется размер образа (в пикселах) для обеспечения удобного просмотра на экране монитора при разрешении не ниже 800*600;
  7. полученное изображение сохраняется в Jpeg формате (среднего уровня сжатия);
  8. проводится небольшая ретушь Jpeg образа.

Созданная коллекция состоит из 30 изданий общим объемом около 2000 страниц.

Новая БД создавалась по такой же схеме, но с двумя существенными добавлениями.
Из каждого "эталонного" tiff образа для электронной коллекции создаются два Jpeg образа, которые отличаются в 1.5 раза (по линейным размерам) друг от друга.
В результате пользователь получает возможность просмотра страниц коллекции "с увеличением".
Кроме того, общий объем второй коллекции составит около 35000 страниц, что значительно повышает требования к сканирующему оборудованию, дисковому пространству и оперативной памяти.

Примечание. Тезисы докладов публикуются в авторской редакции



|Электронная библиотека| |Математические публикации| |Информационные ресурсы|
Ваши комментарии
А.М.Федотов
[SBRAS]
[Головная страница]
[Конференции]
[СО РАН]

© 2000, Сибирское отделение Российской академии наук, Новосибирск