Информационная система "Конференции"

Международная конференция молодых ученых по математическому моделированию и информационным технологиям

29-31 октября 2002 года, Новосибирск, Академгородок

Тезисы докладов

Информационные технологии

Система построения естественно-языковых интерфейсов, ориентированная на классификацию текстов в иерархически структурированной предметной области

Шишкин Д.В.

НГУ (Новосибирск)

Одна из основных задач искусственного интеллекта - сделать общение человека с машиной проще, в частности, предоставить возможность общения на естественном языке. Реализации этой цели служит создание естественно-языковых интерфейсов - программ, которые воспринимают текстовое естественно-языковое сообщение и либо переводят его в некоторый формальный язык, либо выполняют некоторое действие в соответствии с принятым сообщением. Примерами формальных языков могут служить языки запросов к базам данных, языки управления роботами и т.д. Естественно-языковой интерфейс представляет собой достаточно сложную программу, состоящую из нескольких компонент, выполняющих последовательную обработку и распознавание теста на основе лингвистических методов и использующих один или несколько словарей. Одними из важнейших компонент естественно-языкового интерфейса являются продукционная компонента, предназначенная для обработки продукционных правил, определяющих лингвистические правила, и словарная компонента, осуществляющая работу с имеющимися словарями.

Разработка этих компонент была реализована в рамках работ по созданию системы построения различных естественно-языковых интерфейсов, ориентированных на классификацию текстов в иерархически структурированной предметной области и на поддержку естественно-языковых запросов к базам данных. В этих работах используется так называемый семантически-ориентированный анализ естественного языка, в котором понимание основано, прежде всего, на содержательной информации, характеризующей данную предметную область, то есть построенные системой естественно-языковые интерфейсы предназначены для конкретных предметных областей. Настройка интерфейса на предметную область производится разработкой соответствующего набора словарей и созданием соответствующего набора продукционных правил. Эти компоненты построены на языке Java, что позволяет обеспечить платформонезависиость разрабатываемой системы и легкое использование в интернет-приложениях.

Для реализации системы построения естественно-языковых интерфейсов была создана программа TreeBuilder, позволяющая работать с иерархически устроенной информацией. Основа TreeBuilder'a - атрибутированное дерево, его сохранение осуществляется в формате xml. С помощью атрибутов программа позволяет связывать с узлом исполняемый Java-класс и исходные файлы на языке Java, которые необходимо компилировать. Можно связать с узлом директорию в файловой системе, тогда поддерево этого узла будет вести себя как директория файловой системы. Таким образом можно хранить в узлах данные жесткого диска. Все эти особенности используются для редактирования исходного кода, организации текстовой иерархии, хранения отладочной информации с возможностью навигации по исходному коду, создания словарей, организации работы естественно-языкового интерфейса. Также узел можно продолжить другим деревом, что позволяет создавать разного рода библиотеки. Поддерживается технология copy/paste, учитывающая все вышеописанные особенности узлов.

LinguaEngine позволяет реализовать алгоритмы обработки текста в терминах языка Lingua [Трапезников С.П. Программная система конструирования лингвистических процессоров]. LinguaEngine - это Java-пакет, позволяющий выполнять правила. Входом в engine служит массив Java-обьектов (цепочка компонентов) и группы правил, выходом - оставшийся после работы правил массив. Группа правил - это Java-класс, где все булевы методы интерпретируются как правила, аргументы метода как компоненты входной подцепочки.

Далее о проекте Classifier. Цель проекта - используя иерархически структурированную предметную область и правила классификации, сопоставить текстовому сообщению некоторое множество категорий заданной иерархии. Основа проекта -- предметная область (Subject domain) - дерево с приписанными к узлам словами. Работа алгоритма: слова входного предложения ищутся среди слов Subject domain, в итоге получается набор множеств узлов дерева (каждое множество соответствует определенному слову). Над этим набором выполняются некоторые правила (для работы правил использован LinguaEngine).

Дополнительные материалы: HTML
Примечание. Тезисы докладов публикуются в авторской редакции

Ваши комментарии
Обратная связь

[Головная страница]
[Конференции]

© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск
Дата последней модификации: 06-Jul-2012 (11:47:01)