Конференции ИВТ СО РАН



VIII Всероссийская конференция молодых ученых по математическому моделированию и информационным технологиям

27 - 29 ноября 2007 года, Новосибирск

Тезисы докладов


Вычислительная математика

Классификация данных при наличии непредставительной обучающей выборки для ограниченного числа классов

Куликова Е.

Институт Вычислительных Технологий СО РАН (Новосибирск)

Во многих областях применения машинного обучения (распознавание данных дистанционного зондирования, классификация или группировка текстов, медицина и т.п.) имеется большой объем непомеченных данных и лишь ограниченное число помеченных (обучающих) элементов [1]. Поэтому в последнее десятилетие значительное внимание уделяется алгоритмам классификации с частичным обучением, использующим как помеченные, так и непомеченные данные.

Особенностью известных алгоритмов классификации с частичным обучением является необходимость наличия либо обучающей выборки для каждого класса, либо представительной обучающей выборки для интересующих классов [1]. На практике обучающая выборка представляет лишь ограниченное число классов и зачастую не является представительной.

В докладе предлагается алгоритм для классификации данных при наличии непредставительной обучающей выборки для ограниченного числа классов. Предлагаемый алгоритм состоит из трех этапов. На первом этапе производится наращивание обучающей выборки с помощью непараметрического алгоритма кластеризации CCA [2]. На втором этапе расширенное обучающее множество используется алгоритмом частично обучаемой классификации Soft-Parzen [3]. При обработке больших выборок классификатор применяется не ко всему множеству данных, а к небольшому его подмножеству. Результаты работы алгоритма Soft-Parzen включаются в расширенное обучающее множество. На последнем этапе производится классификация по методу апостериорной вероятности.

Литература
1. Zhu X. Semi-supervised learning literature survey. Technical Report (1530), University of Wisconsin-Madison. www.cs.wisc.edu/~jerryzhu/pub/ssl_survey.pdf.
2. Пестунов И.А., Будкина Е.А., Синявский Ю.Н. Алгоритм кластеризации многоспектральных изображений на основе формирования сеточной структуры в пространстве признаков // Тр. междунар. конф. «Вычислительные и информационные технологии в науке, технике и образовании». Павлодар, 2006. Т. II. С. 124–131.
3. Juszczak P., Duin R.P.W. Learning from a test set // Proc. of 4th Intern. Conf. on Computer Recognition Systems, LNCS, Springer-Verlag. 2005. p. 203–210.

Примечание. Тезисы докладов публикуются в авторской редакции



Ваши комментарии
Обратная связь
[ICT SBRAS]
[Головная страница]
[Конференции]

© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск