VIII Международная конференция по электронным публикациям "EL-Pub2003"

8-10 октября 2003 г., г. Новосибирск, Академгородок

Электронная типография и интерлингвистика

Колодин М.Ю.
СПб Институт информатики и автоматизации РАН, Санкт-Петербург

На протяжении многих лет (фактически - тысячелетий) человечество не только делилось по языкам, но и пыталось объединиться, разработав или приняв общий язык. Во многих случаях такие языки разрабатывались полностью или частично на основе уже существующих языков (апостериорные), иногда в качестве общего предлагался какой-либо из доминирующих в тот момент естественных национальных языков (английский, немецкий, французский, латынь), иногда языки придумывались заново (априорные). Каждый язык включает в себя и алфавит, и правила записи (набора) слов. Соответственно, необходимые буквы нужно было ввести в печатное дело. Эти буквы, как правило, брались из существующих языков, иногда с модификациями начертаний, реже использовалась числовая запись.

В наше время роль искусственных языков, особенно плановых языков, или языков-посредников, заметно увеличилась. Непонимание среди людей, давление доминирующей культуры на другие культуры, затраты на переводы и изучение иностранных языков (в большинстве случаев - существенно неполное) возрастают. В такой ситуации может помочь именно язык-посредник, нейтральный, специально разработанный как равно-понятный для всех, со стремлением к точности формирования и формулирования понятий, уменьшению неоднозначности, упрощению грамматики и чёткой организации словообразования.

Тем более удобным в компьютерную эру такой язык может быть в области представления знаний, автоматизации межъязыковых переводов, локализации программных продуктов и документации. Есть успешные попытки выполнения систем многоязычного перевода между естественными языками, при этом требуется не n*(n-1) переводчиков (где n - количество языков), а только 2*(n-1). Заметим, что перевод между естественными языками сложен и неоднозначен; а вот перевод с планового на естественный язык значительно проще, однозначнее, быстрее, т.к. использование плановых языков устраняет или, по крайней мере, существенно снижает критичность некоторых важнейших видов неоднозначностей. Таким образом, при выполнении базовых документации и ресурсов на плановом языке и обеспечении немногих относительно несложных переводчиков и словарей можно почти полностью решить проблемы локализации и понимания во многих областях, прежде всего, напрямую связанных с компьютерами, где действует отмеченный ак. А.П.Ершовым феномен деловой прозы.

Отсюда следует полезность широкого применения плановых языков, поддержки представления информации на них в сети и в печати.

Начиная с 1887 года, ведущую роль среди искусственных языков занимает эсперанто. Это типичный плановый язык, со среднеевропейским корневым составом, простой грамматикой (практически без исключений), и относительно простым алфавитом, основанным на латинице. Относительно - потому что алфавит эсперанто включает 6 букв с диакритикой. Это, с одной стороны, даёт возможность соблюдать принцип "одна буква - один звук", разнообразит письмо, что, по многим свидетельствам, улучшает чтение, с другой стороны, диакритика затрудняет набор. Решив проблему набора в эсперанто, мы тем самым поможем и многим естественным языкам, где есть та же проблема.

Итак, есть несколько вопросов, связанных с регистрацией документов и набором на эсперанто (те же вопросы для других языков рассмотрим позже).

  1. Кодировки и наличие в них символов. Ни в одной "малой" (8-битной) кодировке нет символов для одновременного представления всех нужных нам символов, если мы хотим одновременно набирать и на русском языке. Кодировка Latin-3 (ISO 8859-3) содержит все необходимые символы для эсперанто. Кодировка Unicode, безусловно, имеет одновременно все нужные символы и применима, напр., в варианте UTF-8; к сожалению, многие ныне существующие текстовые редакторы её не поддерживают.
  2. Набор в разных системах на разных платформах. Для качественного набора используется система ТеХ, где можно легко набрать все нужные символы; однако там появляются свои сложности: указанные символы набираются командами внутри текста, соответственно, затруднён поиск по текстам и их анализ. Для документов, подготавливаемых в специальных программах типа WinWord, нужно выполнять переключение языков и/или выбор символов из специальных таблиц; это выполнимо, но долго, кроме того, требуется наличие соответствующих шрифтов; процедура немного облегчается там, где есть макросы. Полезен редактор UniRed, ориентированный на такой набор; при соответствующей настройке подходит (x)emacs; при наборе в MS Windows также полезен драйвер Ek!, дающий возможность набирать эсперантскую диакритику в большинстве программных средств. На веб-сайтах также можно явно указать коды символов; однако это затрудняет чтение и редактирование текстов веб-страниц; плюс есть те же проблемы с поиском информации; автор данного доклада выполнил несколько 3-язычных страниц (одновременно на русском, английском и эсперанто) и пользовался своими программами для упрощения набора; несколько помогла поддержка, имеющаяся в пакете (и языке) parser (парсер) от студии Арт.Лебедева. В создании веб-сайтов можно (а) сразу набирать в utf-8 (редакторов, его поддерживающих, мало), (б) набирать суррогатами ("cx" и т.п.), а при выводе с помощью javascript или метода postprocess в парсере перекодировать в utf-8, (в) перекодировать пакетно, после набора суррогатами, но перед выкладыванием страницы в сеть, или вариациями этих методов. При переписке по электронной почте или при наборе в простых текстовых редакторах (типа far, в котором готовится текст этого доклада), где пока нет возможности переключаться между 8-битными кодировками или вставлять 16-битные символы, приходится пользоваться суррогатами; вместо "c с крышкой" набирается что-либо из "c^", "^c", "ch" или "cx" (последнее сейчас наиболее распространено, поскольку буква "x" отсутствует в алфавите эсперанто и является лишь посторонним модификатором, не внося в текст неоднозначностей), аналогично "jx", "hx", "gx", "sx", "ux", и т.п.; увы, суррогатный набор не способствует развитию грамотности читателей и писателей и не вполне соответствует правилам языка. Наконец, для набора в режиме командной строки не подходит ни один из упомянутых методов, в результате чего английский (американский) язык надёжно занимает монопольную позицию. Есть ещё вариант, при котором вся диакритика просто выбрасывается, не набирается; но это нельзя признать правильным решением: при этом существенно искажается смысл текста.
Для других языков ситуация примерно такая же. Там, где не используется диакритика (напр., языки Ido, lojban) набор проще; там, где она есть, но ограничивается несложными модификациями латинских букв, присутствующими в каких-либо кодировках (напр., volapuk), нужны спец. средства или приёмы набора, либо приходится идти на неполное соответствие правилам языка для удобства набора (напр., суррогаты); там же, где используются любые другие символы, набор сложен и вряд ли имеет смысл развивать сейчас такие системы записи для массового применения. В тех языках, где алфавит базируется на кириллице, есть сложности, типичные для самой кириллицы, прежде всего, множественность кодировок, к которым добавляется сложность набора модифицированных кириллических символов (в отличие от модифицированных латинских, они присутствуют только в малодоступных специальных, хотя и свободно распространяемых, шрифтах). Если используется более сложная графика, как то иероглифы, клинопись, математические символы и т.п. - простых способов набора нет и не предвидится, и широкого распространения такие языки не получат (проблемы языка программирования APL хорошо известны).

Итак, вывод: на сегодня набор не вполне удобен, нужны дополнительные усилия для его полноценной поддержки.

Для этого нужна более широкая поддержка кодировки unicode во всех средствах редактирования, просмотра и преобразования документов, включая электронную почту, разработка макросов и классов для поддержки набора как в не-wysiwyg, так и в wysiwyg-системах, унификация представления такой информации для сетевых и печатных изданий. Упомянутые системы переводов и локализаций тоже должны развиваться до полной всеобщей применимости.

В целом у плановых языков по-прежнему большое будущее, но им нужна практическая поддержка как в существующих и разрабатываемых программных системах, так и в мировоззрении людей.


Ваши комментарии
Обратная связь
[ICT SBRAS]
[Головная страница]
[Конференции]

© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск