Информационная система "Конференции"



IX Всероссийская конференция молодых ученых по математическому моделированию и информационным технологиям

28-30 октября 2008 года, г. Кемерово

Тезисы докладов


Информационные технологии

Разработка формальной модели конструкции предложения грамматики официально-делового стиля узбекского языка и её программная реализация

Жураева Н.В.

Национальный Университет Узбекистана (Ташкент)

В настоящее время в современной лингвистике стала актуально проблема разработки моделей естественных языков. В данной работе предлагается формальные модели конструкций предложения грамматики узбекского языка. Разработанные модели являются базами данных для программы компьютерного синтаксического анализа предложения узбекского языка в рамках официально-делового стиля.

Наименования типов предложения отличается от традиционного, где в формальной модели каждому изменению составов предложения (членов предложения) дается отдельное название, а в традиционной лингвистике этого не наблюдается, что облегчает обнаружить, в какой части предложения произошло изменение.

Приведем основные конструкции предложения официально-делового стиля узбекского языка.

1)основная обобщенная конструкция для простых предложений

(определение)+ подлежащее + (определение) + дополнение + (определение)+обстоятельство +(определение)+ сказуемое + (-ма, -ми, -ма+ми), где –ма- аффикс образования отрицательных предложений, -ми-частица образования обще-вопросительных предложений, -ма+ми -комбинация аффиксов для образования обще-вопросительных предложений. Определения стоят впереди определяемых слов (скобка означает не обязательность, а наличие именуется типом). Данная модель имеет 264 употребительных конструкции с 23-мя наименованиями.

2)конструкции для предложений с прямой речью

Предлагается А+П, П+А, А+П+А, П+А+П конструкции предложения с прямой речью, А-слова автора, П -прямая речь. Каждая из конструкции имеет по 96 конструкции с 6-ю наименованиями.

3)обобщенная конструкция для сложносочиненных предложений

Г1+СЗ+Г2, где Г1- первое простое предложение (подлежащее + дополнение + обстоятельство +сказуемое), Г2- второе простое предложение ( подлежащее + дополнение + обстоятельство +сказуемое), СЗ- сочинительные союза и знаки препинания. Простые предложения соединяются сочинительными союзами и знаками препинаниями. Данная модель имеет 96 конструкции с 12-ю наименованиями.

На базе разработанных моделей создана программа компьютерного синтаксического анализа предложений узбекского языка. Программа выполнена на языке Pascal, в среде программирования Borland Delphi. Также имеет доступ к базам данных в системе Paradox. Единицей синтаксического анализа является отдельное предложение. По результатам анализа получается следующие: 1)все слова с указанием части речи (существительное, прилагательное, местоимение, наречие, числительное, глагол и формы глагола);2)синтаксическая роль в предложении (подлежащее, сказуемое, дополнение, обстоятельство и определение); 3)все слова, с указанием грамматических показателей (число, падеж, лицо, и другие);4)тип предложения;

Главным алгоритмом программы является анализ предложения и определения его структуры. В целом схема анализа достаточно традиционна. На вход системе поступает предложение, далее запускается предсинтаксический анализатор, разбивающий это предложение на отдельные слова. Для каждой словоформы в предложении морфологический анализатор, использующий базу данных, определяет значения грамматических характеристик. На основе этой информации осуществляется синтаксический анализ. Первым делом программа анализа отделяет слово от аффикса и с помощью базы данных разрабатывает структуру предложения. И далее по структуре предложения программа анализирует и дает отчет анализа предложения.

Примечание. Тезисы докладов публикуются в авторской редакции



Ваши комментарии
Обратная связь
[ICT SBRAS]
[Головная страница]
[Конференции]

© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск
    Дата последней модификации: 06-Jul-2012 (11:48:14)