Конференции ИВТ СО РАН



X Российская конференция с участием иностранных ученых "Распределенные информационно-вычислительные ресурсы”

Академгородок, г. Новосибирск, Россия, 6-8 октября 2005 г.

Тезисы докладов


Кластеры доминант и доминантная сеть текста

Чанышев О.Г.

Омский филиал института математики им. С.Л. Соболева СО РАН (ОФИМ СО РАН) (Омск)

В рамках исследований по методам создания иерархических семантических сетей естественно-языковых текстов разработаны методы (и соответствующее программное обеспечение) построения сетей, отражающих контекстную близость слов (лексем).

Информация о "весах" вершин и инцидентных им дугах, полученная на предсинтаксической фазе анализа естественно-языкового текста, может регулировать объем синтактико- семантического анализа. Если же в результате его выявлены возможные отношения между лексемами и их множествами (объект-свойство,объект-субъект действия, обстоятельства времени и места и т.п.), то такая информация позволит выбирать варианты ответов на запросы пользователя, наиболее адекватные содержанию текста.

Кроме того, описанные ниже HС-сеть и HD-сети сами по себе являются базой для обработки запроса пользователя методом поиска связного множества предложений с максимальными весами, которое содержит все лексемы запроса (или их "нормы")

Кластерная (HC) сеть

Поскольку смысл слова определяется прежде всего его кластером, разработан метод выявления кластерной сети текста.

Лексема lj считается близкой к li, если отношение размера пересечения областей существования к размеру области существования lj больше 0.5. Иерархия лексемы определяется ее рангом (R - номер группы в частично упорядоченной по убыванию значения ассоциативной мощности (АсМ) последовательности независимых лексем связи LNLS[1]). Для каждой доминанты (АсМ>=0.5R) в последовательности строится ее кластер, состоящий из близких смежных доминант и атрибутивных лексем. Субдоминанты (на основании критерия близости) включаются либо непосредственно в кластер доминанты либо через кластер близкой доминанты. Из близких лексем выделяется подмножество непосредственно смежных с данной в каком-либо предложении (отношение непосредственного следования без учета порядка, допустимый разделитель - только пробел). Связь между кластерами (центрами пары кластеров) реализуют общие "неблизкие" доминанты. Вес бинарной связи определяется как отношение суммы ассоциативных мощностей "неблизких" доминант к максимальному значению таких сумм. Лексемы, включенные в какой-либо кластер, исключаются из дальнейшего процесса построения HC-сети.

Вариант представления HC-сети предложениями текста

Для каждого кластера отбираются минимальное множество предложений вхождения его элементов (так, чтобы присутствовали все элементы кластеров) с максимальными весами (вес предложения - сумма ассоциативных мощностей лексем из LNLS). В дальнейшем предложения могут быть расположены в порядке возрастания их номеров.

Доминантная (HD) сеть

Вершинами этой сети являются все доминанты. Их смежность определяется существованием общих "неблизких" доминант (либо субдоминант, в противном случае).

Для любой тройки liljlconn, где lconn принадлежит множеству общих "неблизких", существуют по крайней мере два предложения , куда входят (lilconn) и (ljlconn ), а, возможно и единственное, куда входят все три лексемы. Следовательно, можно каждый из путей представить множеством предложений вхождения, выбирая из множества {lconn} лексему с максимальной ассоциативной мощностью, а из вариантов предложений - предложения с максимальным весом.

Работа выполнена в рамках темы "Методы и алгоритмы построения интеллектуальных и распределенных информационно - вычислительных процессов" программы "Математические и алгоритмические проблемы информационных систем нового поколения" ОМН РАН.

[1] Чанышев О.Г. Ассоциативная модель реального текста и ее применение в процессах автоиндексирования. Труды Седьмой национальной конференции по искусственному интеллекту с международным участием КИИ'2000. Москва,Издательство Физико-математической литературы, 2000, с. 430-438.

Примечание. Тезисы докладов публикуются в авторской редакции



Ваши комментарии
Обратная связь
[ICT SBRAS]
[Головная страница]
[Конференции]

© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск