Библиографические базы данных, содержащие ссылки на полный текст документа

Е.В.Ковязина

Институт вычислительного моделирования СО РАН, г.Красноярск

Наиболее востребованной формой информационного обслуживания читателей библиотеки является предоставление им полного текста необходимого документа в электронном виде. Предварительно нужно отыскать такой документ среди других, имеющихся на сервере библиотеки или в сети Интернет. Необходимым условием эффективности такого поиска является наличие стандартных описаний таких документов, собранных в единую базу данных или несколько баз данных, разделенных по тематическому признаку. Вследствие этого, актуальным направлением работы научной библиотеки является формирование библиографических баз данных, в каждой записи которых содержится ссылка на полный текст документа. Для обеспечения многоаспектного поиска по документу в таких базах данных требуется описание его содержания в ключевых словах, предметных рубриках и т.п.

Так как количество документов достаточно велико, актуальной задачей является уменьшение трудозатрат при формировании баз данных. Снизить эти затраты могла бы частичная или полная автоматизация описания электронных документов. В процессе решения этой задачи были выделены три последовательных этапа решения:

Распознавание в тексте документа отдельных элементов библиографического описания
Конвертирование выделенных элементов в формат хранения АБИС
Редактирование и дополнение полученных автоматически описаний средствами АБИС.

С наибольшим количеством проблем пришлось столкнуться на этапе распознавания и выделения элементов. Во-первых, форматы файлов принципиально различны, следовательно, для обработки файлов различных форматов требовались и абсолютно различающиеся программы. При определении возможности автоматизации были визуально исследованы имеющиеся документы с целью выяснения признаков, по которым можно выделить отдельные элементы библиографического описания. Для исследования были выбраны документы в форматах HTML и PDF, как наиболее часто используемые. Выяснилось, что для распознавания требуется не только указание формата, но и тип документа – является ли оно книгой или статьей из журнала или сборника, так как два этих типа документов имеют различный стиль оформления. Были проведен анализ наиболее типичного оформления документов для каждого типа и последующего выделения элементов библиографического описания по шрифту, местоположению в тексте или контексту.

При просмотре кодов HTML определились два различных вида документов, в соответствии с которыми и производилась их обработка:

Документы, не имеющие содержательных метаданных
Документы с метаданными

В документах без метаданных распознавание производилось по тэгам или контексту. При этом работа осложнялась различиями в оформлении статей, для которого не существуют никаких оговоренных последовательностей написания отдельных частей, входящих в библиографическую запись. Оформление электронных статей обычно повторяет оформление соответствующего печатного издания, если оно есть. Как следствие, выделенные элементы данных часто не соответствуют действительности. К счастью, хорошим тоном становится снабжение электронных страниц метаданными, определяемыми в html-кодах тэгом META. Ряд электронных изданий, предоставляющих статьи в html-виде, снабжает их метаданными в формате Dublin Core Metadata Element Set. Характерным признаком этого формата является то, что все значения параметра name начинаются с “DC.”, а далее следует имя элемента, определенное стандартом. Наличие метаданных позволяет значительно расширить количество элементов библиографического описания и получить в результате более полную запись, не прибегая к анализу текста документа.

Формат PDF не содержит метаданных. Однако принятой в Интернет формой хранения таких документов является описание документа на странице, содержащей затем ссылку на файл PDF. Если такая страница имеется, то, как правило, метаданные содержатся в ней и могут быть извлечены теми же средствами, что и из HTML-файла. Текст статьи в формате PDF хранится в закодированном виде, поэтому при работе с этим форматом статья сначала копировалась в буфер обмена из Acrobat Reader, а затем по тексту из буфера производилось распознавание. Возникающие в дальнейшем проблемы не отличаются от таковых для HTML-файлов без метаданных.