Конференции ИВТ СО РАН

X Российская конференция с участием иностранных ученых "Распределенные информационно-вычислительные ресурсы”

Академгородок, г. Новосибирск, Россия, 6-8 октября 2005 г.

Тезисы докладов

Кластеры доминант и доминантная сеть текста

Чанышев О.Г.

Омский филиал института математики им. С.Л. Соболева СО РАН (ОФИМ СО РАН) (Омск)

В рамках исследований по методам создания иерархических семантических сетей естественно-языковых текстов разработаны методы (и соответствующее программное обеспечение) построения сетей, отражающих контекстную близость слов (лексем).

Информация о "весах" вершин и инцидентных им дугах, полученная на предсинтаксической фазе анализа естественно-языкового текста, может регулировать объем синтактико- семантического анализа. Если же в результате его выявлены возможные отношения между лексемами и их множествами (объект-свойство,объект-субъект действия, обстоятельства времени и места и т.п.), то такая информация позволит выбирать варианты ответов на запросы пользователя, наиболее адекватные содержанию текста.

Кроме того, описанные ниже H^С-сеть и H^D-сети сами по себе являются базой для обработки запроса пользователя методом поиска связного множества предложений с максимальными весами, которое содержит все лексемы запроса (или их "нормы")

Кластерная (H^C) сеть

Поскольку смысл слова определяется прежде всего его кластером, разработан метод выявления кластерной сети текста.

Лексема l_j считается близкой к l_i, если отношение размера пересечения областей существования к размеру области существования l_j больше 0.5. Иерархия лексемы определяется ее рангом (R - номер группы в частично упорядоченной по убыванию значения ассоциативной мощности (АсМ) последовательности независимых лексем связи L^NLS[1]). Для каждой доминанты (АсМ>=0.5R) в последовательности строится ее кластер, состоящий из близких смежных доминант и атрибутивных лексем. Субдоминанты (на основании критерия близости) включаются либо непосредственно в кластер доминанты либо через кластер близкой доминанты. Из близких лексем выделяется подмножество непосредственно смежных с данной в каком-либо предложении (отношение непосредственного следования без учета порядка, допустимый разделитель - только пробел). Связь между кластерами (центрами пары кластеров) реализуют общие "неблизкие" доминанты. Вес бинарной связи определяется как отношение суммы ассоциативных мощностей "неблизких" доминант к максимальному значению таких сумм. Лексемы, включенные в какой-либо кластер, исключаются из дальнейшего процесса построения H^C-сети.

Вариант представления H^C-сети предложениями текста

Для каждого кластера отбираются минимальное множество предложений вхождения его элементов (так, чтобы присутствовали все элементы кластеров) с максимальными весами (вес предложения - сумма ассоциативных мощностей лексем из L^NLS). В дальнейшем предложения могут быть расположены в порядке возрастания их номеров.

Доминантная (H^D) сеть

Вершинами этой сети являются все доминанты. Их смежность определяется существованием общих "неблизких" доминант (либо субдоминант, в противном случае).

Для любой тройки l_il_jl^conn, где l^conn принадлежит множеству общих "неблизких", существуют по крайней мере два предложения , куда входят (l_il^conn) и (l_jl^conn ), а, возможно и единственное, куда входят все три лексемы. Следовательно, можно каждый из путей представить множеством предложений вхождения, выбирая из множества {l^conn} лексему с максимальной ассоциативной мощностью, а из вариантов предложений - предложения с максимальным весом.

Работа выполнена в рамках темы "Методы и алгоритмы построения интеллектуальных и распределенных информационно - вычислительных процессов" программы "Математические и алгоритмические проблемы информационных систем нового поколения" ОМН РАН.

[1] Чанышев О.Г. Ассоциативная модель реального текста и ее применение в процессах автоиндексирования. Труды Седьмой национальной конференции по искусственному интеллекту с международным участием КИИ'2000. Москва,Издательство Физико-математической литературы, 2000, с. 430-438.

Примечание. Тезисы докладов публикуются в авторской редакции

Ваши комментарии
Обратная связь

[Головная страница]
[Конференции]