Автоматическое редактирование сканированных текстов сложного формата

Первоисточником электронного документа может нередко быть текст, полученный в результате сканирования и последующего распознавания типографских страниц. Качество распознанного текста зависит от совершенства программы распознавания и, конечно, от исходного материала для сканирования. В частности, особую трудность представляет текст, сильно неоднородный по своему формату. Например, текст, в котором используется как русский, так и английский алфавит, имеется частая смена шрифта - простого, жирного, курсива - и расположение материала характеризуется варьированием левого и правого поля, различным форматом "красной строки" и т. п. В этом случае даже современные программы распознавания ( у нас использовался Fine Reader 4.0 ) нередко плохо справляются с форматированием и распознаванием подобных материалов. Необходимая стадия "ручного" редактирования становится весьма трудоемкой процедурой, в особенности при больших объемах.

В данном сообщении рассмотрен пример автоматической правки текста, полученного после работы Fine Reader 4.0. Автором была написана и опробована программа, позволяющая в доли секунды выполнить большую часть редактирования, после чего время "ручного" просмотра и правки сокращается в несколько раз.

Фрагмент исходного и автоматически отредактированного текста приведен ниже.

Исходный и переработанный документ представлены в формате Microsoft Word. Для автоматической правки текста используется представление документа в rtf-формате. Как видно из приведенного примера, можно автоматически

  1. полностью откорректировать шрифт, используемый для отображения текста;
  2. в большинстве случаев решить задачу правильного раположения текста - поля, отступы, переход на новую строку;
  3. осуществить контекстно обусловленный выбор варианта шрифта - жирный, курсив;
  4. организовать автоматическую проверку и правку некоторых часто встречаемых сочетаний в правильном формате - например, сочетание "[см.тж.".

Вместе с тем, использование данной программы ограничено правкой текста именно такого формата, и для редактирования иначе форматированных текстов необходима ее модификация. Решение вопроса о такой модификации сводится к сопоставлению времени и трудоемкости непосредственного "ручного" редактирования и времени, необходимого для написания программы автоматического редактирования.