VII Международная конференция по электронным публикациям "EL-Pub2002"

23-27 сентября 2002 г., г. Новосибирск, Академгородок

Электронные корпусы старых текстов для филологических исследований


Лаврентьев А.М.
Институт филологии СО РАН, Новосибирск

До недавнего времени единственным широко доступным источником материала для исследователей средневековых текстов были критические издания. Такое издание основывается на сопоставлении текстов сохранившихся рукописей того или иного произведения, устранении ошибок и модификаций, возникших при переписывании, восстановлении лакун и удалении позднейших вставок. Кроме того, текст подобных изданий приближается к нормам современной графической системы: устраняются каллиграфические варианты букв, расшифровываются сокращения, вводится современная пунктуация.

Хотя критические издания осуществляются в соответствии с четкими методологическими принципами, в них неизбежно теряется часть информации из исходных рукописей и содержатся интерпретации и коррективы издателя. Таким образом, в критических изданиях мы имеем дело не с аутентичным материалом той или иной эпохи, а с результатами анализа издателя. Это может ослабить надежность выводов одних исследований и сделать просто невозможным ряд других. В качестве примера последнего случая можно привести исследование пунктуации средневековых рукописей, которое, помимо исторического интереса, могло бы предоставить интересные сведения о природе синтаксических конструкций в языке определенного периода. Вообще для лингвистики особый интерес представляют как раз ошибки и "вольные интерпретации" писцов, потому что они демонстрируют развитие языка и "отмирание" некогда "живых" (или "автоматических") процессов.

Вместе с тем работа непосредственно с оригиналами рукописей сопряжена с целым рядом проблем (доступ к различным библиотекам; сохранность рукописей, необходимость вторично "расшифровывать" рукописный текст). Информационные технологии позволяют в корне изменить эту ситуацию. Первая видимая возможность – публиковать цифровые фотографии рукописей. Цветные фотографии с высоким разрешением в ряде случаев позволяют увидеть в рукописи такие детали, которые при работе с оригиналом практически незаметны. Вне всяких сомнений, цветные фотографии оригинала должны быть неотъемлемым элементом качественного электронного издания. Однако они не решают проблему непосредственного доступа к текстовым данным. Для этого необходима расшифровка (транскрипция) текста, отражающая все релевантную информацию оригинала и позволяющая проводить ее поиск и анализ. Создание таких транскрипций требует решения ряда методологических и технических вопросов, а также принятия определенной конвенции для кодирования специфических элементов средневековой графики.

Одним из первых опытов гипертекстового издания целой рукописной традиции явился проект "Charrette" Принстонского университета. Это доступное через Интернет издание включает цветные фотографии 8-ми сохранившихся рукописей романа Кретьена де Труа "Рыцарь телеги" ("Chevalier de la Charrette"), их дипломатические транскрипции в формате SGML, текст критического издания Фуле-Ютти и целый ряд "инструментов" для поиска и анализа материала, в том числе базы данных по поэтическим фигурам и грамматике. В настоящее время эти базы данных создаются на основе критического издания, однако в перспективе планируется включение в них материала дипломатических транскрипций.

Принципы организации электронных корпусов старых текстов, выработанные в рамках проекта "Charrette", могут использоваться при подготовке электронных изданий любых обладающих исторической ценностью рукописных текстов, в том числе древнерусских.

Важнейшими принципами таких изданий являются:

1. Включение в издание высококачественных цветных фотографий оригинала.

2. Максимально полное и адекватное отражение оригинала в транскрипции.

3. Система специальных кодов для трудночитаемых и допускающих неоднозначную интерпретацию фрагментов оригинала.

4. Соответствие транскрипции общепринятым международным стандартам электронной записи текстов (TEI).

5. Совместимость транскрипции с современными программными средствами визуализации и обработки электронных документов.

Первый принцип уже упоминался в начале доклада. Его значение состоит в обеспечении возможности проверки точности электронной транскрипции на любом этапе работы с ней.

Второй принцип имеет наибольшее значение. Электронная транскрипция должна содержать все существенные данные, которые можно обнаружить в оригинале. Решение вопроса, какие именно данные являются существенными, требует тщательного анализа графической системы той или иной национальной рукописной традиции. В общем случае следует исходить из того, что в тексте имеет какую-либо функцию или отражает какое-либо противопоставление, а что является, по всей видимости, случайным отклонением (вариацией), неизбежным в рукописном тексте. В спорных моментах следует принимать решение в пользу включения в транскрипцию более детальной информации. Вместе с тем необходимо искать разумный компромисс между полнотой отражения информации (релевантность которой может вызывать сомнения) и сложностью и объемом самой транскрипции (которые могут превратить ее создание и обработку в невероятно трудоемкую задачу).

В создании электронных транскрипций проекта "Charrette" релевантными были сочтены, в частности, следующие элементы графической системы рукописей:

1) символы, диакритические знаки и прочие средства, используемые в сокращениях;

2) каллиграфические варианты букв;

3) цвет, размер и орнамент буквиц в начале глав и абзацев;

4) нестандартная сегментация текста;

5) знаки пунктуации.

Первоначально для передачи всех "нестандартных" графических объектов рукописи в проекте "Charrette" использовались энтити SGML, однако более продуктивным представляется использование элементов, которые лучше поддаются обработке существующими прикладными программами и допускают возможность включения дополнительной информации с помощью атрибутов.

Третий принцип может быть реализован благодаря использованию стандартного элемента TEI unclear и атрибута cert.

Четвертый и пятый принципы имеют скорее технический характер. Думается, что желательность использования стандартных моделей и совместимости с существующими программными средствами сомнений не вызывает. В настоящее время наиболее распространенным стандартом электронного представления текстов, используемых для гуманитарных исследований, являются рекомендации международной «Инициативы по кодированию текстов» (TEI). Они, в частности, приняты составителями машинного фонда русского языка. В рамках проекта "Charrette" выбор также с самого начала был сделан в пользу этого стандарта. В 1990 г., когда начиналась работа над транскрипциями, единственным «рамочным» форматом, на котором могли применяться принципы TEI, был SGML. В последние годы, однако, широкое распространение получил «подвид» SGML под названием XML. Все современные прикладные программы и, в частности, «стилевые листки», позволяющие визуализировать электронные документы в удобном для пользователя виде и извлекать из них разного рода данные, создаются именно для этого стандарта. В этой связи в 2001 г. было принято решение перевести транскрипции проекта "Charrette" в формат XML, и автору данного выступления довелось принять участие в этой работе. На данный момент разработана общая схема документов XML и подготовлены стилевые листки для их визуализации. Предполагается, что новые транскрипции не просто будут «конвертированными» первоначальными, но будут содержать дополнительную информацию, призванную облегчить дальнейшую работу с ними.

В настоящее время в Институте филологии СО РАН идет подготовительная работа по проекту электронного издания ряда русских сибирских летописей и памятников фольклора народов Сибири. Предполагается, что эта работа начнется с издания Есиповской летописи.

Адреса в Интернете:

1. Проект "Charrette": http://www.princeton.edu/~lancelot
2. Спецификация TEI: http://www.tei-c.org



|Электронная библиотека| |Математические публикации| |Информационные ресурсы|
Ваши комментарии
Обратная связь
[SBRAS]
[Головная страница]
[Конференции]
[СО РАН]

© 2002, Сибирское отделение Российской академии наук, Новосибирск
© 2002, Объединенный институт информатики СО РАН, Новосибирск