Первоисточником электронного документа может нередко быть текст, полученный в результате сканирования и последующего распознавания типографских страниц. Качество распознанного текста зависит от совершенства программы распознавания и, конечно, от исходного материала для сканирования. В частности, особую трудность представляет текст, сильно неоднородный по своему формату. Например, текст, в котором используется как русский, так и английский алфавит, имеется частая смена шрифта - простого, жирного, курсива - и расположение материала характеризуется варьированием левого и правого поля, различным форматом "красной строки" и т. п. В этом случае даже современные программы распознавания ( у нас использовался Fine Reader 4.0 ) нередко плохо справляются с форматированием и распознаванием подобных материалов. Необходимая стадия "ручного" редактирования становится весьма трудоемкой процедурой, в особенности при больших объемах.
В данном сообщении рассмотрен пример автоматической правки текста, полученного после работы Fine Reader 4.0. Автором была написана и опробована программа, позволяющая в доли секунды выполнить большую часть редактирования, после чего время "ручного" просмотра и правки сокращается в несколько раз.
Фрагмент исходного и автоматически отредактированного текста приведен ниже.
Исходный и переработанный документ представлены в формате Microsoft Word. Для автоматической правки текста используется представление документа в rtf-формате. Как видно из приведенного примера, можно автоматически
Вместе с тем, использование данной программы ограничено правкой текста именно такого формата, и для редактирования иначе форматированных текстов необходима ее модификация. Решение вопроса о такой модификации сводится к сопоставлению времени и трудоемкости непосредственного "ручного" редактирования и времени, необходимого для написания программы автоматического редактирования.