Кластерный анализ широко используется в информационных системах при решении задач классификации и обнаружения закономерностей в данных: при работе с базами данных, анализе интернет-документов, сегментации изображений и т.д. В работе рассматривается задача кластерного анализа в условиях, когда пространство переменных имеет большую размерность. Известно, что в этом случае усиливается «проклятие размерности», что приводит к почти полной неразличимости точек (например, евклидово расстояние от любой точки до ее «ближайшего соседа» может практически совпадать с расстоянием до «дальнего соседа»). Предлагается подход к решению данной проблемы, основанный на построении набора логических решающих функций для группировки, представленных в виде деревьев решений («леса решений»). При этом формируются подпространства сравнительно малой размерности, состоящие из случайно отобранных переменных. Использование деревьев решений позволяет достичь хорошей интерпретируемости моделей, имеющих вид логических закономерностей, дает возможность обрабатывать разнотипные переменные, выделять наиболее важные факторы.
Примечание. Тезисы докладов публикуются в авторской редакции
Ваши комментарии Обратная связь |
[Головная страница] [Конференции] |
© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск
Дата последней модификации: 06-Jul-2012 (11:45:15)