Вычислительная математика
Во многих областях применения машинного обучения (распознавание данных дистанционного зондирования, классификация или группировка текстов, медицина и т.п.) имеется большой объем непомеченных данных и лишь ограниченное число помеченных (обучающих) элементов [1]. Поэтому в последнее десятилетие значительное внимание уделяется алгоритмам классификации с частичным обучением, использующим как помеченные, так и непомеченные данные.
Особенностью известных алгоритмов классификации с частичным обучением является необходимость наличия либо обучающей выборки для каждого класса, либо представительной обучающей выборки для интересующих классов [1]. На практике обучающая выборка представляет лишь ограниченное число классов и зачастую не является представительной.
В докладе предлагается алгоритм для классификации данных при наличии непредставительной обучающей выборки для ограниченного числа классов. Предлагаемый алгоритм состоит из трех этапов. На первом этапе производится наращивание обучающей выборки с помощью непараметрического алгоритма кластеризации CCA [2]. На втором этапе расширенное обучающее множество используется алгоритмом частично обучаемой классификации Soft-Parzen [3]. При обработке больших выборок классификатор применяется не ко всему множеству данных, а к небольшому его подмножеству. Результаты работы алгоритма Soft-Parzen включаются в расширенное обучающее множество. На последнем этапе производится классификация по методу апостериорной вероятности.
Литература
1. Zhu X. Semi-supervised learning literature survey. Technical Report (1530), University of Wisconsin-Madison. www.cs.wisc.edu/~jerryzhu/pub/ssl_survey.pdf.
2. Пестунов И.А., Будкина Е.А., Синявский Ю.Н. Алгоритм кластеризации многоспектральных изображений на основе формирования сеточной структуры в пространстве признаков // Тр. междунар. конф. «Вычислительные и информационные технологии в науке, технике и образовании». Павлодар, 2006. Т. II. С. 124–131.
3. Juszczak P., Duin R.P.W. Learning from a test set // Proc. of 4th Intern. Conf. on Computer Recognition Systems, LNCS, Springer-Verlag. 2005. p. 203–210.
Примечание. Тезисы докладов публикуются в авторской редакции
Ваши комментарии Обратная связь |
[Головная страница] [Конференции] |
© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск