VIII Международная конференция по электронным публикациям "EL-Pub2003"

8 - 10 октября 2003 года, г. Новосибирск, Академгородок,
(номер государственной регистрации 0320301032)

Тезисы докладов


Опыт создания цифровых учебных коллекций в вузовской библиотеке

Охезина Е. А., Негуляев Е. А.

Научная библиотека Уральского государственного университета (Екатеринбург)

На протяжении 3 лет Научная библиотека Уральского государственного университета (НБ УрГУ) занимается самостоятельным созданием цифровых коллекций материалов из собственных фондов. Первым направлением было создание электронных копий дореволюционных изданий из фондов Отдела редких книг библиотеки УрГУ, вторым — создание электронной коллекции авторефератов и диссертаций.

За прошедшие годы был накоплен опыт, позволивший поставить более масштабные задачи — создание цифровых коллекций учебных материалов.

Суть проекта формулировалась следующим образом: студент УрГУ должен иметь возможность получить на руки компакт диск, на котором будут представлены все материалы, необходимые для изучения курса: методические пособия, учебники, научные монографии, хрестоматии, статьи из периодических изданий.

Приблизительный объем материалов для одного курса — около 15 тыс. страниц.

При подготовке проекта была поставлена задача обеспечить полнотекстовый поиск по созданным учебным коллекциям, причем добавить возможность поиска с учетом информации в полях с метаописаниями (имя автора, название произведения).

В качестве основы для представления цифровых копий был принят формат pdf. Причин для этого выбора было три: во-первых, pdf позволяет сохранять файл после распознавания в режиме «текст под изображением», а значит полностью исключить процедуру ручного исправления ошибок распознавания; во-вторых, средствами pdf достаточно легко можно организовать полнотекстовый поиск; в-третьих, возможности сжатия файлов в pdf достаточны для размещения на одном CD-R необходимого нам количества отсканированных страниц.

Следует отметить, что два последних пункта стали реальностью только с выходом шестой версии пакета Adobe Acrobat, увидевшей свет в конце мая 2003 г., поэтому для выполнения нашего проекта пришлось применить самые последние решения на основе pdf.

Всего было подготовлено два учебных курса: «История отечественной журналистики» и «Введение в литературоведение. Ежегодно эти два курса изучает около 1400 студентов пяти специальностей на трех факультетах УрГУ. Для первого курса было использовано 44 книги и 16 статей, для второго — 38 книг. Выбор именно этих учебных курсов определялся исходя из сведений, какая литература пребывает в наибольшем «дефиците» в нашей библиотеке. Некоторые издания имеются в библиотеке в единственном экземпляре. Некоторые — в нескольких, но в очень плохом физическом состоянии. Таким образом, цифровая копия выполняет еще и страховую функцию: в случае, если бумажный экземпляр будет утрачен, с цифровой копии может быть изготовлен бумажный дубликат.

Все работы были организованы с 26 июня по 29 августа 2003 года и большей частью выполнялись силами студентов УрГУ, проходивших практику в Научной библиотеке. Всего единовременно было задействовано от 1 до 5 чел. Время работы студентов варьировалось от 4 до 6 часов в день, сроки работы — от 1 до 3 недель. Для выполнения работ по проекту использовалось 4 персональных компьютера и 3 сканера (1 с приспособлением для автоматического постраничного сканирования).

Весь технологический процесс был представлен в виде ряда элементарных операций, при этом работа была организована по принципу конвейера и каждый из студентов проходил обучение всего одной операции. Это дало возможность организовать всю работу без особых требований к персоналу в условиях очень частой сменяемости работников.

В целом технологический процесс можно представить в виде следующей последовательности действий:

1. Просмотр и подготовка бумажного издания. Определение оборудования, на котором будет проходить сканирование и параметров сканирования.
2. Сканирование.
3. Контроль сканирования и исправление ошибок (пересканирование «бракованных» или пропущенных страниц).
4. Автоматическая постраничная разрезка отсканированных разворотов.
5. Контроль автоматической разрезки и исправление ошибок.
6. Постраничная обработка (удаление дефектов сканирования и восстановление истинных размеров страницы).
7. Распознавание в Fine Reader и сохранение pdf файла.
8. Дополнительное сжатие pdf файлов.
9. Заполнение полей метаописания.
10. Определение параметров безопасности и шифрование pdf файла.

В дополнение к этим операциям после подготовки электронных копий всех изданий требовалась также процедура полнотекстового индексирования.

Организация всех работ большую часть времени находилась под наблюдением одного человека, который обеспечивал единство технологического процесса и обучение студентов.

Скорость выполнения основных технологических операций составила:

Незначительная часть книг была отсканирована постранично на сканере с автоподачей, что обеспечило скорость сканирования в 3 раза выше, чем при ручном сканировании разворотами, т. е. до 300 страниц в час.

Сканирование всех изданий проводилось в режиме черно-белого изображения (bitmap) с разрешением от 300 до 450 dpi в зависимости от вида издания.

Получаемая в результате этого технологического процесса электронная копия издания является его точным графическим изображением и может быть распечатана с близким к оригиналу качеством.

Средний объем одной страницы, созданной по этой технологии, составляет 20–25 Kb для усредненной книжной страницы, таким образом книга в 400 стр. имеет объем около 9 Mb.

Каждая электронная копия содержит «невидимый» слой распознанного текста, по которому организовывается полнотекстовый поиск. Поиск по коллекции целиком основан на предварительном индексировании всех материалов средствами Acrobat Professional 6.0. Поисковые запросы могут быть заданы с учетом информации, находящейся в полях метаописания. Индексный файл записывается на компакт-диск вместе с материалами коллекции. Для работы пользователя требуется всего лишь Adobe Reader 6.0, бесплатно распространяемый фирмой Adobe и включаемый нами на каждый диск с материалами коллекции. Предыдущая версия Adobe Acrobat Reader 5.0 лишь частично поддерживает использованные технологии, а еще более ранними Adobe Acrobat Reader эти файлы не могут быть прочитаны. При необходимости созданные файлы могут быть проиндексированы и другими специализированными поисковыми системами.

Все распространяемые на компакт-дисках файлы электронных копий защищены средствами формата PDF. Используется стандартная парольная защита с длиной ключа в 128 бит. Каждый файл защищен собственным уникальным паролем длиной не менее 7 символов. Защита файлов устанавливает следующие ограничения на использование:

Таким образом, наличие в руках студентов электронных копий не позволяет им воспользоваться популярным методом «cut & paste» для подготовленных нами материалов.

Реализованный проект показывает, что при правильной постановке дела университетским библиотекам вполне по силам решать задачи подготовки масштабных учебных коллекций и предоставлять их в удобном для использования виде. При этом решаются задачи и библиотек, и ВУЗа в целом. Остается надеяться, что эта деятельность будет подхвачена другими вузовскими библиотеками и будет поддержана руководством ВУЗов, а занятые в этом процессе участники перейдут к обмену цифровыми ресурсами или предоставлению доступа к созданными ресурсам сторонних организаций на взаимовыгодной основе.

Презентация доклада находится здесь.

Дополнительные материалы: HTML
Примечание. Тезисы докладов публикуются в авторской редакции



Ваши комментарии
Обратная связь
[ICT SBRAS]
[Головная страница]
[Конференции]

© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск