<H3> Автоматическое редактирование сканированных текстов сложного формата</H3>


    <P>Первоисточником электронного документа может нередко быть текст, полученный в результате сканирования и последующего распознавания типографских страниц. Качество распознанного текста зависит от совершенства программы распознавания и, конечно, от исходного материала для сканирования. В частности, особую трудность представляет текст, сильно неоднородный по своему формату. Например, текст, в котором используется как русский, так и английский алфавит, имеется частая смена шрифта - простого, жирного, курсива - и расположение материала характеризуется варьированием левого и правого поля, различным форматом "красной строки" и т. п. В этом случае даже современные программы распознавания ( у нас использовался Fine Reader 4.0 ) нередко плохо справляются с форматированием и распознаванием подобных материалов. Необходимая стадия "ручного" редактирования становится весьма трудоемкой процедурой, в особенности при больших объемах.
    <P>В данном сообщении рассмотрен пример автоматической правки текста, полученного после работы Fine Reader 4.0. Автором была написана и опробована программа, позволяющая в доли секунды выполнить большую часть редактирования, после чего время "ручного" просмотра и правки сокращается в несколько раз.

<P>Фрагмент исходного и автоматически отредактированного текста приведен ниже. <BR>
<TABLE ><TR>
<TD><IMG src=img6.gif BORDER="1"></TD><TD><IMG src=img7.gif BORDER="1"></TD>
</TR></TABLE>

<P>Исходный и переработанный документ представлены в формате Microsoft Word. Для автоматической правки текста используется представление документа в rtf-формате. Как видно из приведенного примера, можно автоматически<BR>
<OL>
<LI> полностью откорректировать шрифт, используемый для отображения текста;<BR>
<LI> в большинстве случаев решить задачу правильного раположения текста - поля, отступы, переход на новую строку;<BR>
<LI> осуществить контекстно обусловленный выбор варианта шрифта - жирный, курсив;<BR>
<LI> организовать автоматическую проверку и правку некоторых часто встречаемых сочетаний в правильном формате - например, сочетание "[<I>см.тж.</I>".<BR>
</OL>
<P>  Вместе с тем, использование данной программы ограничено правкой текста именно такого формата, и для редактирования иначе форматированных текстов необходима ее модификация. Решение вопроса о такой модификации сводится к сопоставлению времени и трудоемкости непосредственного "ручного" редактирования и времени, необходимого для написания программы автоматического редактирования.