Чанышев О.Г.
Омский филиал института математики
СО РАН (ОФИМ СО РАН),Омск
Рассматривается возможность использования доминантных лексем для классификации ЕЯ-текстов. Если метод классификации определять с момента, когда текст уже некоторым образом представлен (например, множеством "ключевых слов"), то описываемый ниже является одним из вариантов, рассмотренных в [1, гл.8]. Принципиальным моментом является представление текста предельно сокращенным множеством слов, в рамках Ассоциативной модели реального текста [2], получившего название доминантного.
Из текста выделяются "независимые лексемы связи" (НЛС), обладающие тем свойством, что для каждой пары из множества НЛС найдутся минимум два предложения, в которые каждая из пары входит отдельно (они также обладают частотой более 1 и не принадлежат стоп-словарю). НЛС упорядочиваются по убыванию "ассоциативной мощности" (АсМ - аналог степени вершины графа, состоящего из вершин-лексем, смежность между которыми определяется вхождением в одно предложение). Ранг лексемы (Rл)- номер группы в этой последовательности с одинаковыми АсМ, ранг текста (Rт) - максимальный номер группы. Доминанты - подмножество НЛС с АсМ >= 0.5Rт. Количество доминант в среднем составляет около 4% всех слов текста (без стоп-лексем).
Для процессов автоматической кластеризации и классификации в качестве веса лексемы взят обратный ранг (1/Rл).
Таким образом,
Для каждой предметной области подбирается группа
классифицирующих текстов. Множества доминант (без указания характеристик
"важности") каждого текста объединяются в тезаурус.
Для каждого классифицируемого текста определяются множества
пересечений его доминант с доминантами тезаурусов. Определяются корелляционные
коэффициенты (Kcor), равные отношению суммы весов пересечений к сумме весов
доминант текста. Принадлежность к предметной области, идентифицируемой
наименованием тезауруса, определяется по максимуму Kcor.
В настоящей работе представляется результат классификации
96-ти, не принадлежащих множеству классифицирующих, текстов. Все тексты
(за исключением одного) взяты из Internet'а и преобразованы из
форматов WinWord и HTML в линейный формат (*.txt). В необходимых местах были
проставлены отсутствующие точк.
По возможности, в качестве классифицирующих выбирались
курсы лекций (лекция - файл).
1. Тезаурус "Общие вопросы философии" (837) - "Введение в философию", (лекции с сайта Башкирского ГУ), лекции Дулумана "Философская пропедевтика" и лекции Суворовой "Введение в современную философию" (45 текстов, 1 758 757 байт).
2. Тезаурус "Индийская философия и буддизм" (538) - первый том С. Радхакришнана "История индийской философии", книга Рокотовой "Основы буддизма" (15+1 текстов, 1 911 941 байт).
3. Тезаурус "Психология" (431) - монография И.Смирнов, Е.Безносюк, А.Журавлёв. "Психотехнологии. Компьютерный психосемантический анализ и психокоррекция на неосознаваемом уровне." - М.: Издательская группа "Прогресс" - "Культура", 1995, 416 с. (1 текст, 597 865 байт); лекции О.Н. Первушиной "Общая психология" (5 текстов, 143 951 байт), лекции Т.Н. Пушкиной "Медицинская психология" (1 текст, 142 370 байт), а также неидентифицированный текст "Психология и ее разделы" (17 108 байт) со ссылкой на источник: Годфруа Ж. Что такое психология. Т.1. М.: Мир, 1992.
4. Тезаурус "Языкознание" (645) - лекции по общему языкознанию Сусова И.П (сайт Пермского ГУ, 59 текстов общим объемом 702 747 байт).
5. Тезаурус "Искусственный интеллект" (320) - Сотник С.Л. Конспект лекций по курсу "Основы проектирования систем искусственного интеллекта", 1997 - 1998., (5 текстов, 132 761 байт), неидентифицированные тексты "Проблемы ИИ" (15 661 байт) и "Методы ИИ" (164 922 байт), список литературы по *ИИ (около 100 наименований, 14 799 байт), текст лекции "Классификация задач анализа данных" (нет в Internet'е), в основу которой положен материал книги Н.Г. Загоруйко "Прикладные методы анализа данных и знаний", Новосибирск, Изд-во Ин-та математики, 1999.
6. Тезаурус "Нейрокомпьютинг" (268) - Ф. Уоссермен "Нейрокомпьютерная техника: Теория и практика", 1992 и статья Роберт Хехт Нильсен "Нейрокомпьютинг: история, состояния, перспективы" // Открытые системы, №4-5, 1998 (всего 12 текстов, 362 291 байт).
7. Тезаурус "Системы управления базами данных" (436) - Кузнецов С. Д. Введение в СУБД. //Системы управления базами данных, #1-4/95 -#1-6/96 и Ладыженский Г.М. Системы управления базами данных - коротко о главном. //Системы управления базами данных #1-4/95 (всего 13 текстов, 687 441 байт).
1.Общие вопросы философии - 30 (30)
2.Индийская философия и буддизм - 7(7)
3.Психология - 12 (9).
При этом, неправильно классифицированные тексты оказываются принадлежащими либо разделу "Индийская философия и буддизм" либо "Общие вопросы философии".
4. Языкознание - 10 (8).
При этом текст "Философские проблемы искусственного интеллекта" классифицирован, как принадлежащий разделу "Индийская философия и буддизм" во-первых, и "Общие вопросы философии" - во-вторых.
6. Нейрокомпьютинг - 16 (9).
При этом 4 текста из 7 неправильно классифицированных, определены как принадлежащие разделу "Искусственный интеллект", а 2 из этих 4-х "во-вторых" принадлежат разделу "Нейрокомпьютинг". 6 из 9 правильно классифицированных "во-вторых" принадлежат разделу "Искусственный интеллект".
7. Системы управления базами данных - 14 (12).
При этом, текст Л.К. Боброва "Мировая индустрия онлайновых баз данных" оказался принадлежащим разделу "Психология", а текст Эндрю Ларсена и др. "Oracle Media Server" - "Нейрокомпьютинг", что следует считать безусловно неверным.
Таким образом, формально, из 96 текстов опознаны неверно 15, и точность классификации примерно равна 84%. Принципиально неправильно классифицированными я бы посчитал только 8 текстов, подняв точность до 92%.
1. Солтон Дж. Динамические библиотечно-информационные системы. М.:Мир, 1979.
2. Чанышев О.Г. Ассоциативная модель реального текста и ее применение в процессах автоиндексирования. //Труды Седьмой национальной конференции по искусственному интеллекту с международным участием КИИ'2000. Москва, Издательство Физико-математической литературы, 2000, с. 430-438.
Ваши комментарии Обратная связь |
[Головная страница] [Конференции] [СО РАН] |
© 2002, Сибирское отделение Российской академии наук, Новосибирск
© 2002, Объединенный институт информатики СО РАН, Новосибирск