Федотов А.М.

Электронные публикации и проблемы множественности кодировок русского языка

3. Национальные кодировки

Начиная с середины 80-х кодов компьютерная подготовка документов, как для создания твердых копий и оригинал-макетов печатных изданий, так и для использования в электронном виде (передача по каналам связи или в различных информационных системах), все больше и больше вытесняет обычные способы -- машинопись или типографский набор. В большинстве организаций уже давно исчезли печатные машинки и наборные автоматы -- их заменили персональные компьютеры.

Постоянно совершенствуется и технология подготовки оригинал-макетов научно - технических текстов. Такие текстовые процессоры как \TeX, MS Word, PageMaker и другие, им подобные, позволяют подготовить для печати практически любой документ. Однако, если речь идет о текстах, содержащих математические символы, то пока непревзойденной является издательская система \TeX, созданная Д.Кнутом.

Текстовый процессор \TeX активно используются физиками, математиками и учеными смежных специальностей всего мира для обмена информации и издательской деятельности. Причина популярности издательской системы \TeX и ее использования для представления научно-технической информации заключается в высокой компактности, читаемости файлов вне \TeX'а, сохранении в них логической структуры документа и полной переносимости системы \TeX на любые платформы.

В связи с развитием гипертекстовых технологий Internet и все большим применением последних для представления научно - технических текстов, на второе место выходит и другое преимущество издательской системы \TeX, которое заключается в том, что по структуре команд язык программирования текстов \TeX очень похож на язык программирования гипертекстов HTML (HyperText Markup Language) -- язык гипертекстовой разметки документов, используемый для подготовки документов для WWW. Это свойство языка \TeX, при наличии хорошо работающих конверторов или препроцессора, позволяет практически одновременно подготавливать электронную и печатную версию документов.

Вместе с компьютерным набором возникли две проблемы, связанные с использованием символов, не содержащихся в стандартной кодовой таблице (Code Page) символов us-ascii (ISO-ASCII): первая -- это проблема включения в подготавливаемые тексты символов национальных алфавитов и акцентированных символов, даже в странах использующих в качестве основного английский алфавит; вторая -- это проблема использования специальных символов, какими, например, набираются математические формулы. На проблемах связанных с кодировками символов, используемых \TeX'ом, и переносимостью \TeX-документов, а также, связанных с представлением математических символов, мы остановимся ниже более подробно.

Рассмотрим проблему представления символов национальных алфавитов.

Первый способ решения этой проблемы (а также и проблемы, связанной с представлением математических символов) заключается в следующем. Имея оригинал-макет, подготовленный для печати и используя гипертекстовой протокол передачи данных (HTTP -- HyperText Transfer Protocol), вы можете представить пользователю по сети графический образ страницы. Но такой способ передачи публикаций приемлем только для небольших объемов информации, как например, аннотации статей из журнала и требует от пользователя необходимости работы только в графическом режиме и с быстрыми каналами связи, что для нашей страны вряд ли можно считать удобным.

Другой способ решения проблемы представления символов, отсутствующих в стандартной кодовой таблице, заключается в передаче пользователю-клиенту не самих документов, а их образов, подготовленных для печати и просмотра в специальных форматах, таких как Postscript или Adobe PDF. Этот способ также трудно назвать ``удовлетворительным". Во-первых, для документов в этих форматах резко возрастает объем передаваемой информации по сравнением с их текстовым аналогом, хотя он и меньше, чем соответствующий объем графических файлов. Во-вторых, для просмотра документов требуется установка на компьютер пользователя специального математического обеспечения, что у многих пользователей иногда вызывает ``тихий ужас". В-третьих, применение специальных форматов затрудняет совместную работу над документами и их дальнейшее использование. Ну а в-четвертых, это достаточно неудобно, так как прежде чем посмотреть документ вам необходимо перекачать его на свой компьютер, а потом загрузить специальную программу для его просмотра.

( Замечание: такой способ можно считать удовлетворительным только для документов, подготовленных и хранимых в системе MS Word, хотя сам формат MS Word не решает полностью проблему совместимости не только для текстов с символами кириллицы, но и для текстов с символами только латинского алфавита.)

Для европейских языков, алфавиты которых созданы на основе латинского, проблема включения в электронные документы символов национальных алфавитов, более менее удовлетворительно решилась с возникновением системы UNICODE, в которой используется расширенная кодовая таблица ASCII (256 символов). В этом случае символы национальных алфавитов включаются во вторую половину расширенной кодовой таблицы (числовые коды в диапазоне от 128 до 255), хотя для всех европейских языков одного расширения (128 дополнительных символов) кодовой таблицы не хватило.

В качестве стандарта, принятого Международной организацией стандартизации (ISO, International Standards Organisation), используется 10 различных расширений кодовой таблицы (Code Page):

Кодовая страница ISO-8859-1 (старое название Latin 1) поддерживает языки Западной и Центральной Европы: албанский, немецкий, английский, каталонский, датский, испанский, финский, французский, фларманский, ирландский, испанский, исландский, итальянский, голландский, норвежский, португальский.
Кодовая страница ISO-8859-2 (Latin 2) поддерживает славянские языки Центральной Европы и Германии: немецкий, хорватский, венгерский, польский, румынский, словацкий, словенский, чешский.
Кодовая страница ISO-8859-3 (Latin 3) поддерживает языки: эсперанто, галицийский, мальтийский, турецкий.
Кодовая страница ISO-8859-4 (Latin 4) поддерживает языки Восточной Европы: эстонский, латышский, литовский.
Кодовая страница ISO-8859-5 поддерживает кириллический алфавит, языки: болгарский, белорусский, македонский, сербский, русский, украинский. Эта кодировка в настоящий момент принята к использованию государственным стандартом Российской Федерации (ГОСТ).
Кодовая страница ISO-8859-6 поддерживает арабский алфавит (в расширенной системе передачи данных пока не используется).
Кодовая страница ISO-8859-7 поддерживает греческий алфавит.
Кодовая страница ISO-8859-8 поддерживает арабский алфавит (в расширенной системе передачи данных пока не используется).
Кодовая страница ISO-8859-9 (Latin 5) расширение таблицы Latin 1, связанное с дополнительными буквами исландского (кельтского) языка.
Кодовая страница ISO-8859-10 (Latin 6) другой более полный вариант кодовой таблицы для языков Восточной Европы, включая скандинавские языки.

В настоящее время ведется работа по разработке стандартов кодовых таблиц, включающих символы всех языков мира, в том числе китайского и японского ( С точки зрения автора эта работа вряд ли будет когда-либо завершена, поскольку трудно найти ``человека", который был бы в состоянии создать шрифт, содержащий около 16 тысяч символов.).

Введение различных кодовых таблиц и локализация языковых стандартов на компьютерах полностью сняло национальную проблему использования различных текстовых процессоров для подготовки оригинал-макетов. Отметим, что стандартные операционные системы на компьютерах таких фирм-производителей как IBM или Sun Microsystems поддерживают приведенные выше национальные языковые стандарты.

Однако проблемы передачи электронных версий документов из страны в страну и представления специальных символов по-прежнему остались.

При передачи документов через Internet проблема определения кодовой таблицы, в которой набран соответствующий документ, решается путем задания Content-Type расширения MIME (Multipurpose Internet Mail Extensions) для протокола HTTP и соответствующего имени кодовой таблицы (например, charset=ISO-8859-1). Если на вашем компьютере установлена операционная система поддерживающая UNICODE (или MIME), то вы имеете возможность увидеть текст в том виде, в котором его подготовил автор. Эта возможность ``теоретически" реализуется при правильной настройке вашего компьютера и просмотрщика WWW страниц (браузера -- browser) и наличии соответствующих графических (или экранных для текстового просмотрщика) шрифтов. Практически это не всегда реализуется правильно, так как не все просмотрщики работают по стандарту. Вернее авторам неизвестен ни один просмотрщик, который полностью удовлетворял бы требованиям стандарта.

При работе с текстовыми процессорами, как мы увидим ниже на примере \TeX'а, дело обстоит несколько сложнее.