Интеллектуальная обработка даных в процессе формирования баз знаний

Корлякова М.О.
Калужский филиал МГТУ им. Н.Э.Баумана, Калуга

Современные программы документооборота и базы данных сохраняют детали рассматриваемого явления с недоступной ранее точностью. Объемы данных растут, они легкодоступны и надежны, обладают структурой, которой их снабдил пользователь, но они не являются знанием в полном смысле слова. Знания - больше, чем сумма фактов, даже если каждый факт обладает структурой и связан с другими фактами. При обработке информации нужно получить закономерности, а не списки данных. Таким образом, стоит задача интеллектуальной обработки информации для извлечения знаний, существующих в хранилищах данных.

Рассмотрим основные особенности данных, представленных в системах хранения информации, с точки зрения поиска закономерностей, существующих в них:

Как правило, описание объектов содержит не менее 25-50 характерных признаков или полей базы данных, где каждый признак может быть дискретным (и иметь 5-10 и более значений) или непрерывным.
Множество значений и признаков не является окончательным и может измениться.
Критерии, определяющие качество объектов, носят как формальный, так и экспертный характер, т.е. не всегда могут быть выражены явной зависимостью.
Объем данных (примеров объектов) достаточно велик и растет, причем некоторые удачные в прошлом объекты теряют свое качество от времени из-за постоянного развития технологий.
Опытный эксперт обладает интуитивным знанием закономерности, определяющей качественный объект, и способен отделить удачные объекты от неудачных, но не может выразить свои знания в явном виде.
Процесс оценки и ранжирования объектов занимает достаточно существенное время.

Все вышесказанное позволяет говорить о том, что поиск закономерности вручную задача трудоемкая и требует серьезной поддержки на основе современных технологий обработки данных. Одной из таких технологий является интеллектуальный анализ данных (Data Mining). Data Mining объединяет множество методов и подходов к организации процесса извлечения знаний из потока данных. К наиболее известным подходам относят [7] системы на основе нейронных сетей, статистических методов, нечеткой логики, методов обобщения по примерам. Каждый подход имеет свои достоинства и недостатки, но особо следует отметить системы, связанные с обобщением примеров объектов (KAD [4], АТ-ТЕХНОЛОГИЯ [5], INDUCE [2] и др.), которые обеспечивают работу в средах с разными типами данных и могут работать с экспертом, не являющимся программистом. Рассматриваемые системы реализуют процесс обобщения и некоторый уровень обработки входной информации для подготовки исследуемых данных. Можно говорить о методах обобщения как о наиболее перспективном подходе при работе с данными, для которых существует закономерность возникновения определенных результатов.

Например, АТ-ТЕХНОЛОГИЯ позволяет преобразовывать структурированную информацию базы данных (БД) в базу знаний (БЗ) экспертной системы на основе применения алгоритмов класса ID3. Цель системы должна быть сформулирована пользователем, что легко сделать в случае одного, двух критериев. Ситуация усложняется тогда, когда цель определена множеством критериев (например, не только подбор лекарства, но и учет финансовых возможностей больного или условий дефицита лекарств и т.п.). Это свидетельствует о существовании локальных закономерностей внутри общего поля знания. Причем чем сложнее описание объекта, тем больше будет локальных областей (при условии существования большой выборки соответствующих им фактов). Следовательно, необходимо разрабатывать системы, поддерживающие процесс формирования исходных наборов фактов для работы алгоритмов обобщения с учетом следующих функциональных возможностей:

Поддержка процесса выделения множества целей на основе критериев качества объектов.
Выделение существенных признаков и их коррекция.
Поддержка процесса извлечения закономерностей на основе алгоритма обобщения.
Поддержка процесса немонотонного развития системы во времени.

Предлагаемая к рассмотрению в данной работе интеллектуальная система (ИС) ``Трейд'' [6] обеспечивает пользователю поддержку при обработке потоков данных, поступающих из различных источников.

**Рис. 1:** Архитектура интеллектуальной системы ``Трейд''

Архитектура интеллектуальной системы ``Трейд'' приведена на рис. 1.

Основой системы является алгоритм обобщения по примерам, подробно рассмотренный в ряде работ [5,6]. Алгоритм требует представления описания рассматриваемой области как многомерного дискретного простраства , где - число координат-характеристик объекта $X=\{x_1, x_2,\ldots , x_n\}$ , а описания обьектов как точки пространства в виде вектора, содержащего значения признаков $\phi _i = <a_1,a_2, \ldots , a_n>$ , где - значение -го параметра. Пространство содержит неизвестные, т.е. не получившие оценку эксперта факты, и известные, составляющие базу фактов. База фактов разделена на две части: - удачные объекты и - неудачные объекты. Разделение осуществлено либо экспертом, либо с помощью набора критериев $C_i = \{f_1, \ldots , f_k\}$ , где - определяет -ю локальную закономерность на данном наборе фактов, а - реализация -го критерия для .

На множествах и строится разделяющая их функция выбора $y(\phi_i)$ такая, что $y(\phi_i) \ge 0$ если $\phi_i \in T$ и $y(\phi_i) < 0, \, \phi_i \in F$ . Для неизвестной части пространства функция выбора будет разделять объекты в соответствии с законом, полученным на базе фактов. В работе [3] рассмотрен процесс построения многоуровневой функции выбора для работы в больших пространствах.

Система ``Трейд'', использующая рассмотренный алгоритм обобщения, должна выделить признаки и их описания для каждой предметной области, определить базы фактов для каждой из локальных закономерностей , построить функцию выбора и сохранить ее в базу знаний. Для получения результата необходимо осуществить следующие действия:

Выделить поля БД, которые являются входными характеристиками (множество ).
Выделить, поля являющиеся оценками ситуаций, или ввести эти оценки с помощью эксперта.
Обратиться к блоку выделения подпространств для определения множества целей $\{C_1, C_2, \ldots , C_s\}$ и построить множество $\Phi_i$ (множество удачных примеров для -й цели) и его дополнение $1 - \Phi_i$ (множество неудачных примеров для -й цели) по каждой цели .
Для каждой цели породить многоуровневую функцию выбора.
Провести тестирование системы и перестроить в случае необходимости набор целей и закономерностей.

1. Определение пространства, описывающего предметную область.

Реальные задачи представляют примеры без выделения множеств значений. Следовательно, необходимо определять номенклатуру значений параметров. ИС ``Трейд'' поддерживает этот процесс в двух вариантах:

для дискретных параметров выделяем уникальные последовательности символов в описании и каждую такую последовательность устанавливаем как одно из значений параметра,
для непрерывных параметров проводим процесс таксономии на шкале c целью выделения интервалов [5] (этот процесс отработан на задачах предсказания курса валюты, где все входные характеристики носят непрерывный характер).

Операция определения пространства может быть проведена повторно, когда возникают новые неизвестные значения параметров. Для дискретных признаков идет простое добавление нового значения, а для непрерывных - необходимо повторять процесс таксономии и переназначать значения ранее известных примеров.

2. Выделение целей.

Критерии, описывающие цели, составляют множество $P=\{f_1, f_2, \ldots , f_k\}$ . Факты располагаются и группируются в пространстве критериев , где координатами является множество . Процесс разделения удовлетворительной части базы фактов на подмножества и, соответственно, выделение целей реализован с помощью проведения процедуры таксономии [8] в пространстве критериев , определяющих качество решения. Критерии нормализованы к диапазону [0,1]. Каждый вариант из пространства взвешен значениями критериев.

Система ``Трейд'' для проведения таксономии использует алгоритм таксономии [1]. Факт может быть отнесет к нескольким таксонам сферической формы. Результат проведения процесса таксономии порождает для каждой -той цели подмножество фактов $\Phi =\{\phi_1, \phi_2, \ldots, \phi_m\}$ .

Подмножество $\Phi_i$ является подмножеством - примеров -го понятия, а все остальные примеры из базы фактов можно относить к подмножеству - контрпримеров -го понятия. Полное множество целей $\{C_1, \ldots , C_s\}$ , где - число целей, является набором понятий, представленных в экстенсиональной форме и образует базу знаний, соответствующую исходной БД.

3. Построение закономерности оценки вариантов.

Закономерность на множестве $\Phi_i$ и его дополнении порождается через рассмотренный ранеее индуктивный алгоритм. Кроме того, происходит выделение на основе анализа функции выбора наиболее существенных параметров и построение закономерности только по отобранным признакам.

В случае, когда сохранилось в качестве существенных большое число параметров, следует проводить процесс построения многоуровневой функции выбора.

4. Немонотонное обучение.

В процессе жизни ИС часть информации из базы фактов может устареть и даже приобрести негативный смысл. Для разрешения подобных ситуаций в ИС ``Трейд'' предусмотрен механизм исключения фактов. В качестве потенциально устаревших фактов выступают факты, принадлежащие базе фактов, но обладающие значениями функции выбора, близкими к границе между множеством удачных и неудачных примеров. Набор кандидатов на исключение из множества примеров или на перенос из области удач в область неудач определяется с использованием алгоритма порождения опорных решений [3]. Отобранные варианты проверяются экспертом или набором формальных критериев, определенных на данном уровне существования системы.

Заключение.

Система теститовалась на задачах предсказания курса валюты, для которой были выделены три цели - ``быстрый рост'', - ``долгосрочный рост'' и - ``отсутствие роста/падения''. Для каждой цели построена многоуровневая функция выбора по набору входных параметров. В данном случае система обучалась на историческом наборе данных об уровне цены, т.е. характер входных характеристик непрерывный, а выходных - дискретный (курс растет или падает). Качество предсказаний составляет 70-80% успешных тестов. Анализ результатов работы системы показал, что БЗ успешно генерируется как для случая потока непрерывных характеристик (цена валюты), так и для пространств дискретных и непрерывных параметров.

Построение множества целей на одном наборе данных позволяет учесть тонкие особенности рассматриваемых предметных областей. Это дает возможность для глубокого анализа любого проектного решения. С точки зрения пользователя процесс извлечения закономерностей не становится сложней с ростом числа целей, определенных в одном и том же наборе входных параметров. Решенные с помощью системы задачи обладают высоким уровнем сложности, а результаты работы соответствующих функций выбора демонстрируют высокую достоверность, что гарантирует успешное решение других задач подобных классов.

В дальнейшем необходимо реализовать расширение способов представления примеров за счет интеграции графических образов анализируемых фактов. Это позволит работать не только с цифровой и текстовой (строковой) информацией, как в существующей версии системы.

Литература

1: Вагин В.Н. Дедукция и обобщение в системах принятия решений. - М.: Наука. Гл. ред. физ.-мат. лит. 1988. - 384 с.
2: Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. - СПб: Питер, 2000. - 384 с.
3: Дзегеленок И.И., Корлякова М.О. Подход к повышению содержательной емкости систем 2-го поколения. Вопросы радиоэлектроники. Серия ``Электронная вычислительная техника'', выпуск 1, Москва, 1999 - с. 52-59.
4: Загоровский И.М. Выбор алгоритма обучения в системах приобретения знаний из данных // КИИ2000, седьмая национальная конференция по искусственному интеллекту с международным участием. Труды конференции, Т. 1 - М.: Изд. Физ.мат. лит. 2000 - с. 131-135.
5: Калинина Е.А., Рыбина Г.В. Применение технологии Data Mining для автоматизированного построения баз знаний интегрированных экспертных систем // КИИ2000, седьмая национальная конференция по искусственному интеллекту с международным участием. Труды конференции, Т. 1 - М.: Изд. Физ.-мат. лит. 2000 - с. 119-127.
6: Корлякова М.О. Многоуровневая экспертная система на основе обобщения примеров по признакам КИИ2000, седьмая национальная конференция по искусственному интеллекту с международным участием. Труды конференции, Т. 1 - М.: Изд. Физ.-мат. лит., 2000. - с. 103-112
7: Шапот М. Интеллектуальный анализ данных в системах поддержки принятия решений. Открытые системы, №1, 1998.

Ваши комментарии

[Головная страница]
[Конференции]
[СО РАН]

© 2001, Сибирское отделение Российской академии наук, Новосибирск
© 2001, Объединенный институт информатики СО РАН, Новосибирск
© 2001, Институт вычислительных технологий СО РАН, Новосибирск
© 2001, Институт систем информатики СО РАН, Новосибирск
© 2001, Институт математики СО РАН, Новосибирск
© 2001, Институт цитологии и генетики СО РАН, Новосибирск
© 2001, Институт вычислительной математики и математической геофизики СО РАН, Новосибирск
© 2001, Новосибирский государственный университет
Дата последней модификации Thursday, 06-Sep-2001 15:48:16 NOVST