VIII Международная конференция по электронным публикациям "EL-Pub2003"
8-10 октября 2003 г., г. Новосибирск, Академгородок
Электронная типография и интерлингвистика
Колодин М.Ю.
СПб Институт информатики и автоматизации РАН, Санкт-Петербург
На протяжении многих лет (фактически - тысячелетий) человечество не
только делилось по языкам, но и пыталось объединиться, разработав или
приняв общий язык. Во многих случаях такие языки разрабатывались
полностью или частично на основе уже существующих языков (апостериорные), иногда в
качестве общего предлагался какой-либо из доминирующих в тот момент
естественных национальных языков (английский, немецкий, французский,
латынь), иногда языки придумывались заново (априорные).
Каждый язык включает в себя и алфавит, и правила записи
(набора) слов. Соответственно, необходимые буквы нужно было ввести в
печатное дело. Эти буквы, как правило, брались из существующих языков,
иногда с модификациями начертаний, реже использовалась числовая запись.
В наше время роль искусственных языков, особенно плановых языков, или
языков-посредников, заметно увеличилась. Непонимание среди людей,
давление доминирующей культуры на другие культуры, затраты на переводы и
изучение иностранных языков (в большинстве случаев -
существенно неполное) возрастают. В такой ситуации может помочь именно
язык-посредник, нейтральный, специально разработанный как равно-понятный
для всех, со стремлением к точности формирования и формулирования
понятий, уменьшению неоднозначности, упрощению грамматики и чёткой
организации словообразования.
Тем более удобным в компьютерную эру такой язык может быть в области
представления знаний, автоматизации межъязыковых переводов, локализации
программных продуктов и документации. Есть успешные попытки выполнения
систем многоязычного перевода между естественными языками, при этом
требуется не n*(n-1) переводчиков (где n - количество языков),
а только 2*(n-1). Заметим, что перевод
между естественными языками сложен и неоднозначен; а вот перевод с
планового на естественный язык значительно проще, однозначнее, быстрее,
т.к. использование плановых языков устраняет или, по крайней мере,
существенно снижает критичность некоторых важнейших видов
неоднозначностей. Таким образом, при выполнении базовых документации и
ресурсов на плановом языке и обеспечении немногих относительно несложных
переводчиков и словарей можно почти полностью решить проблемы
локализации и понимания во многих областях, прежде всего, напрямую
связанных с компьютерами, где действует отмеченный ак. А.П.Ершовым
феномен деловой прозы.
Отсюда следует полезность широкого применения плановых языков, поддержки
представления информации на них в сети и в печати.
Начиная с 1887 года, ведущую роль среди искусственных языков занимает
эсперанто. Это типичный плановый язык, со среднеевропейским корневым
составом, простой грамматикой (практически без исключений), и
относительно простым алфавитом, основанным на латинице. Относительно -
потому что алфавит эсперанто включает 6 букв с диакритикой. Это, с одной
стороны, даёт возможность соблюдать принцип "одна буква - один звук",
разнообразит письмо, что, по многим свидетельствам, улучшает чтение, с
другой стороны, диакритика затрудняет набор. Решив проблему набора в
эсперанто, мы тем самым поможем и многим естественным языкам, где есть
та же проблема.
Итак, есть несколько вопросов, связанных с регистрацией документов и
набором на эсперанто (те же вопросы для других языков рассмотрим позже).
-
Кодировки и наличие в них символов. Ни в одной "малой" (8-битной)
кодировке нет символов для одновременного представления всех нужных нам
символов, если мы хотим одновременно набирать и на русском языке.
Кодировка Latin-3 (ISO 8859-3) содержит все необходимые символы для
эсперанто. Кодировка Unicode, безусловно, имеет одновременно все нужные
символы и применима, напр., в варианте UTF-8; к сожалению, многие
ныне существующие текстовые редакторы её не поддерживают.
-
Набор в разных системах на разных платформах. Для качественного набора
используется система ТеХ, где можно легко набрать все нужные символы; однако
там появляются свои сложности: указанные символы набираются командами
внутри текста, соответственно, затруднён поиск по текстам и их анализ. Для
документов, подготавливаемых в специальных программах типа WinWord, нужно
выполнять переключение языков и/или выбор символов из специальных таблиц;
это выполнимо, но долго, кроме того, требуется наличие соответствующих
шрифтов; процедура немного облегчается там, где есть макросы. Полезен
редактор UniRed, ориентированный на такой набор; при соответствующей
настройке подходит (x)emacs; при наборе в MS Windows также полезен драйвер
Ek!, дающий возможность набирать эсперантскую диакритику в большинстве
программных средств. На веб-сайтах также можно явно указать коды символов;
однако это затрудняет чтение и редактирование текстов веб-страниц; плюс
есть те же проблемы с поиском информации; автор данного доклада выполнил
несколько 3-язычных страниц (одновременно на русском, английском и
эсперанто) и пользовался своими программами для упрощения набора; несколько
помогла поддержка, имеющаяся в пакете (и языке) parser (парсер) от студии
Арт.Лебедева. В создании веб-сайтов можно (а) сразу набирать в utf-8
(редакторов, его поддерживающих, мало), (б) набирать суррогатами ("cx" и
т.п.), а при выводе с помощью javascript или метода postprocess в парсере
перекодировать в utf-8, (в) перекодировать пакетно, после набора
суррогатами, но перед выкладыванием страницы в сеть, или вариациями этих
методов. При переписке по электронной почте или при наборе в простых
текстовых редакторах (типа far, в котором готовится текст этого доклада),
где пока нет возможности переключаться между 8-битными кодировками или
вставлять 16-битные символы, приходится пользоваться суррогатами; вместо "c
с крышкой" набирается что-либо из "c^", "^c", "ch" или "cx" (последнее
сейчас наиболее распространено, поскольку буква "x" отсутствует в алфавите
эсперанто и является лишь посторонним модификатором, не внося в текст
неоднозначностей), аналогично "jx", "hx", "gx", "sx", "ux", и т.п.; увы,
суррогатный набор не способствует развитию грамотности читателей и
писателей и не вполне соответствует правилам языка. Наконец, для набора в
режиме командной строки не подходит ни один из упомянутых методов, в
результате чего английский (американский) язык надёжно занимает монопольную
позицию. Есть ещё вариант, при котором вся диакритика просто выбрасывается,
не набирается; но это нельзя признать правильным решением: при этом
существенно искажается смысл текста.
Для других языков ситуация примерно такая же. Там, где не используется
диакритика (напр., языки Ido, lojban) набор проще; там, где она есть, но
ограничивается несложными модификациями латинских букв, присутствующими
в каких-либо кодировках (напр., volapuk), нужны спец. средства или приёмы набора, либо
приходится идти на неполное соответствие правилам языка для удобства
набора (напр., суррогаты); там же, где используются любые другие
символы, набор сложен и вряд ли имеет смысл развивать сейчас такие
системы записи для массового применения. В тех языках, где алфавит
базируется на кириллице, есть сложности, типичные для самой кириллицы,
прежде всего, множественность кодировок, к которым добавляется сложность
набора модифицированных кириллических символов (в отличие от
модифицированных латинских, они присутствуют только в малодоступных
специальных, хотя и свободно распространяемых, шрифтах). Если
используется более сложная графика, как то иероглифы, клинопись,
математические символы и т.п. - простых способов набора нет и не
предвидится, и широкого распространения такие языки не получат (проблемы
языка программирования APL хорошо известны).
Итак, вывод: на сегодня набор не вполне удобен, нужны дополнительные
усилия для его полноценной поддержки.
Для этого нужна более широкая поддержка кодировки unicode во всех
средствах редактирования, просмотра и преобразования документов, включая
электронную почту, разработка макросов и классов для поддержки набора
как в не-wysiwyg, так и в wysiwyg-системах, унификация представления
такой информации для сетевых и печатных изданий. Упомянутые системы
переводов и локализаций тоже должны развиваться до полной всеобщей
применимости.
В целом у плановых языков по-прежнему большое будущее, но им нужна
практическая поддержка как в существующих и разрабатываемых программных
системах, так и в мировоззрении людей.
© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск