В рамках исследований по методам создания иерархических семантических сетей естественно-языковых текстов разработаны методы (и соответствующее программное обеспечение) построения сетей, отражающих контекстную близость слов (лексем).
Информация о "весах" вершин и инцидентных им дугах, полученная на предсинтаксической фазе анализа естественно-языкового текста, может регулировать объем синтактико- семантического анализа. Если же в результате его выявлены возможные отношения между лексемами и их множествами (объект-свойство,объект-субъект действия, обстоятельства времени и места и т.п.), то такая информация позволит выбирать варианты ответов на запросы пользователя, наиболее адекватные содержанию текста.
Кроме того, описанные ниже HС-сеть и HD-сети сами по себе являются базой для обработки запроса пользователя методом поиска связного множества предложений с максимальными весами, которое содержит все лексемы запроса (или их "нормы")
Поскольку смысл слова определяется прежде всего его кластером, разработан метод выявления кластерной сети текста.
Лексема lj считается близкой к li, если отношение размера пересечения областей существования к размеру области существования lj больше 0.5. Иерархия лексемы определяется ее рангом (R - номер группы в частично упорядоченной по убыванию значения ассоциативной мощности (АсМ) последовательности независимых лексем связи LNLS[1]). Для каждой доминанты (АсМ>=0.5R) в последовательности строится ее кластер, состоящий из близких смежных доминант и атрибутивных лексем. Субдоминанты (на основании критерия близости) включаются либо непосредственно в кластер доминанты либо через кластер близкой доминанты. Из близких лексем выделяется подмножество непосредственно смежных с данной в каком-либо предложении (отношение непосредственного следования без учета порядка, допустимый разделитель - только пробел). Связь между кластерами (центрами пары кластеров) реализуют общие "неблизкие" доминанты. Вес бинарной связи определяется как отношение суммы ассоциативных мощностей "неблизких" доминант к максимальному значению таких сумм. Лексемы, включенные в какой-либо кластер, исключаются из дальнейшего процесса построения HC-сети.
Для каждого кластера отбираются минимальное множество предложений вхождения его элементов (так, чтобы присутствовали все элементы кластеров) с максимальными весами (вес предложения - сумма ассоциативных мощностей лексем из LNLS). В дальнейшем предложения могут быть расположены в порядке возрастания их номеров.
Вершинами этой сети являются все доминанты. Их смежность определяется существованием общих "неблизких" доминант (либо субдоминант, в противном случае).
Для любой тройки liljlconn, где lconn принадлежит множеству общих "неблизких", существуют по крайней мере два предложения , куда входят (lilconn) и (ljlconn ), а, возможно и единственное, куда входят все три лексемы. Следовательно, можно каждый из путей представить множеством предложений вхождения, выбирая из множества {lconn} лексему с максимальной ассоциативной мощностью, а из вариантов предложений - предложения с максимальным весом.
Работа выполнена в рамках темы "Методы и алгоритмы построения интеллектуальных и распределенных информационно - вычислительных процессов" программы "Математические и алгоритмические проблемы информационных систем нового поколения" ОМН РАН.
[1] Чанышев О.Г. Ассоциативная модель реального текста и ее применение в процессах автоиндексирования. Труды Седьмой национальной конференции по искусственному интеллекту с международным участием КИИ'2000. Москва,Издательство Физико-математической литературы, 2000, с. 430-438.
Примечание. Тезисы докладов публикуются в авторской редакции
Ваши комментарии Обратная связь |
[Головная страница] [Конференции] |
© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск