Информационная система "Конференции"



IX Всероссийская конференция молодых ученых по математическому моделированию и информационным технологиям

28-30 октября 2008 года, г. Кемерово

Тезисы докладов


Информационные технологии

Эффективные алгоритмы классификации для тематической обработки данных дистанционного зондирования в условиях малой обучающей выборки

Куликова Е.А., Пестунов И.А.

Институт Вычислительных Технологий СО РАН (Новосибирск)

Методы классификации с обучением занимают одно из центральных мест в задачах тематической обработки данных дистанционного зондирования (ДДЗ). Качество результатов обработки при применении этих методов существенным образом зависит не только от вида используемого решающего правила (РП), но и от представительности обучающей выборки (ОВ). При обработке ДДЗ процесс получения представительной ОВ, как правило, связан со значительными материальными и временными затратами, что обуславливается пространственной неоднородностью классов, труднодоступностью исследуемых территорий и т.п. Поэтому в большинстве практических случаев ОВ является непредставительной, а для некоторых классов может отсутствовать вовсе. В этой ситуации традиционные алгоритмы классификации, в которых РП определяется лишь используемой ОВ и не зависит от входных подлежащих классификации данных, не обеспечивают удовлетворительных результатов.

В последние годы активно развиваются так называемые методы классификации с полуобучением [1], которые для построения РП наряду с ОВ используют информацию, извлекаемую из входных неклассифицированных данных, имеющихся, как правило, в большом количестве, особенно при классификации ДДЗ. Для корректного использования этих методов требуется наличие ОВ для всех без исключения классов. Однако при решении практических задач, связанных с обработкой ДДЗ, это требование обычно не выполняется.

Для решения этой проблемы в докладе предлагается использовать два алгоритма кластеризации, которые позволяют исключить из рассмотрения данные, заведомо не принадлежащие классам, представленным в ОВ (классам интереса), и выявить представительные точки классов, которыми может быть дополнена ОВ.

Первый алгоритм основан на методе глобальных k-средних [2]. Он позволяет определять глобальный минимум верхней границы среднеквадратичного критерия, если плотность распределения представляет собой смесь нормальных распределений. Затем из кластеров, принадлежащих классам интереса, и смежных с ними выделяются случайным образом p% точек, которые добавляются в исходную обучающую выборку.

Второй алгоритм классификации основан на непараметрическом алгоритме кластеризации CCA [3]. Данный алгоритм позволяет выделять сложные линейно неразделимые кластеры. Алгоритм CCA основан на формировании сеточной структуры в пространстве признаков и непараметрической оценке плотности распределения. Точки локальных максимумов оценки плотности, принадлежащие классам интереса и смежным с ними кластерам, добавляются в исходную ОВ. Дополненная ОВ может быть расширена при помощи алгоритма классификации с полуобучением soft-Parzen. Алгоритм soft-Parzen является непараметрическим и использует минимальную апостериорную информацию (хотя бы одна обучающая точка на класс) для выделения сложно разделимых классов.

Расширенная указанными способами исходная обучающая выборка может быть использована для построения традиционных классификатов.

Предложенные алгоритмы тестировались на модельных данных и на реальных спутниковых изображениях. Проведенные эксперименты подтверждают эффективность этих алгоритмов.

Литература
[1] Zhu X. Semi-supervised learning literature survey. Technical report (1530), University of Wisconsin-Madison. www.cs.wisc.edu/~jerryzhu/pub/ssl_survey.pdf.
[2] Синявский Ю.Н., Будкина Е.А. ППП «GIPARD» для автоматизированного анализа данных дистанционного зондирования // Материалы XLII МНСК «Студент и научно-технический прогресс». – Новосибирск. – 2004. – С. 181–182.
[3] Куликова Е.А., Пестунов И.А. Классификация с полуобучением в задачах обработки многоспектральных изображений // Вычисл. технологии. 2008. T. 13 (совместный вып.). Вестн. КазНУ им. аль-Фараби. Серия: Математика, механика, информатика. 2008. № 3 (58). – Ч. II. – С. 284–290.

Примечание. Тезисы докладов публикуются в авторской редакции



Ваши комментарии
Обратная связь
[ICT SBRAS]
[Головная страница]
[Конференции]

© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск
    Дата последней модификации: 06-Jul-2012 (11:48:14)