VII Международная конференция по электронным публикациям "EL-Pub2002"
23-27 сентября 2002 г., г. Новосибирск, Академгородок

Автоматическая классификация текстов по доминантным лексемам

Чанышев О.Г.
Омский филиал института математики
СО РАН (ОФИМ СО РАН),Омск

Введение

Рассматривается возможность использования доминантных лексем для классификации ЕЯ-текстов. Если метод классификации определять с момента, когда текст уже некоторым образом представлен (например, множеством "ключевых слов"), то описываемый ниже является одним из вариантов, рассмотренных в [1, гл.8]. Принципиальным моментом является представление текста предельно сокращенным множеством слов, в рамках Ассоциативной модели реального текста [2], получившего название доминантного.

Из текста выделяются "независимые лексемы связи" (НЛС), обладающие тем свойством, что для каждой пары из множества НЛС найдутся минимум два предложения, в которые каждая из пары входит отдельно (они также обладают частотой более 1 и не принадлежат стоп-словарю). НЛС упорядочиваются по убыванию "ассоциативной мощности" (АсМ - аналог степени вершины графа, состоящего из вершин-лексем, смежность между которыми определяется вхождением в одно предложение). Ранг лексемы (Rл)- номер группы в этой последовательности с одинаковыми АсМ, ранг текста (Rт) - максимальный номер группы. Доминанты - подмножество НЛС с АсМ >= 0.5Rт. Количество доминант в среднем составляет около 4% всех слов текста (без стоп-лексем).

Для процессов автоматической кластеризации и классификации в качестве веса лексемы взят обратный ранг (1/Rл).

Таким образом,

доминанты представляют наиболее значимое подмножество лексем СВЯЗИ МЕЖДУ ПРЕДЛОЖЕНИЯМИ и для каждой из них все остальные можно рассматривать как вербальный контекст.

1. Классификация

Для каждой предметной области подбирается группа классифицирующих текстов. Множества доминант (без указания характеристик "важности") каждого текста объединяются в тезаурус.
Для каждого классифицируемого текста определяются множества пересечений его доминант с доминантами тезаурусов. Определяются корелляционные коэффициенты (Kcor), равные отношению суммы весов пересечений к сумме весов доминант текста. Принадлежность к предметной области, идентифицируемой наименованием тезауруса, определяется по максимуму Kcor.

2. Эксперимент

В настоящей работе представляется результат классификации 96-ти, не принадлежащих множеству классифицирующих, текстов. Все тексты (за исключением одного) взяты из Internet'а и преобразованы из форматов WinWord и HTML в линейный формат (*.txt). В необходимых местах были проставлены отсутствующие точк.
По возможности, в качестве классифицирующих выбирались курсы лекций (лекция - файл).

2.1. Тезаурусы и классифицирующие тексты.

После наименования тезауруса в скобках указано составляющих его слов. После тире перечисляются классифицирующие тексты.

1. Тезаурус "Общие вопросы философии" (837) - "Введение в философию", (лекции с сайта Башкирского ГУ), лекции Дулумана "Философская пропедевтика" и лекции Суворовой "Введение в современную философию" (45 текстов, 1 758 757 байт).

2. Тезаурус "Индийская философия и буддизм" (538) - первый том С. Радхакришнана "История индийской философии", книга Рокотовой "Основы буддизма" (15+1 текстов, 1 911 941 байт).

3. Тезаурус "Психология" (431) - монография И.Смирнов, Е.Безносюк, А.Журавлёв. "Психотехнологии. Компьютерный психосемантический анализ и психокоррекция на неосознаваемом уровне." - М.: Издательская группа "Прогресс" - "Культура", 1995, 416 с. (1 текст, 597 865 байт); лекции О.Н. Первушиной "Общая психология" (5 текстов, 143 951 байт), лекции Т.Н. Пушкиной "Медицинская психология" (1 текст, 142 370 байт), а также неидентифицированный текст "Психология и ее разделы" (17 108 байт) со ссылкой на источник: Годфруа Ж. Что такое психология. Т.1. М.: Мир, 1992.

4. Тезаурус "Языкознание" (645) - лекции по общему языкознанию Сусова И.П (сайт Пермского ГУ, 59 текстов общим объемом 702 747 байт).

5. Тезаурус "Искусственный интеллект" (320) - Сотник С.Л. Конспект лекций по курсу "Основы проектирования систем искусственного интеллекта", 1997 - 1998., (5 текстов, 132 761 байт), неидентифицированные тексты "Проблемы ИИ" (15 661 байт) и "Методы ИИ" (164 922 байт), список литературы по *ИИ (около 100 наименований, 14 799 байт), текст лекции "Классификация задач анализа данных" (нет в Internet'е), в основу которой положен материал книги Н.Г. Загоруйко "Прикладные методы анализа данных и знаний", Новосибирск, Изд-во Ин-та математики, 1999.

6. Тезаурус "Нейрокомпьютинг" (268) - Ф. Уоссермен "Нейрокомпьютерная техника: Теория и практика", 1992 и статья Роберт Хехт Нильсен "Нейрокомпьютинг: история, состояния, перспективы" // Открытые системы, №4-5, 1998 (всего 12 текстов, 362 291 байт).

7. Тезаурус "Системы управления базами данных" (436) - Кузнецов С. Д. Введение в СУБД. //Системы управления базами данных, #1-4/95 -#1-6/96 и Ладыженский Г.М. Системы управления базами данных - коротко о главном. //Системы управления базами данных #1-4/95 (всего 13 текстов, 687 441 байт).

2.2. Классифицируемые тексты.

Классифицируемые тексты подбирались на основании оценки семантического совпадения наименований и содержания. Например, если книга Ф. Карпа "Дао физики", состоящая из 17 глав (плюс предисловия, введение и эпилог, выделенные мной в два отдельных текста) в целом отнесена к разделу "Общие вопросы философии", то главы 5,6,7,9 (соответствующие наименования: "Индуизм", "Буддизм", "Китайская философия", "Дзен") отнесены к разделу "Индийская философия и буддизм". Обратный пример: при ознакомлении со статьей М.Г. Доррер "Интуитивное предсказание нейросетями взаимоотношений в группе" из сборника "Методы нейроинформатики" (см. Методы нейроинформатики / Под. ред. А.Н. Горбаня; отв. за выпуск М.Г. Доррер. КГТУ, Красноярск, 1998. 205 с.) я был совершенно уверен, что из-за вопросников, составляющих более половины текста, статья будет классифицирована, как принадлежащая разделу "Психология", тем не менее, оставил ее в группе текстов "Нейрокомпьютинг".

3. Результат классификации

3.1.

Первая цифра - число классифицируемых текстов, вторая цифра в скобках - число правильно классифицированных.

1.Общие вопросы философии - 30 (30)

2.Индийская философия и буддизм - 7(7)

3.Психология - 12 (9).

При этом, неправильно классифицированные тексты оказываются принадлежащими либо разделу "Индийская философия и буддизм" либо "Общие вопросы философии".

4. Языкознание - 10 (8). 5. Искусственный интеллект - 7 (6).

При этом текст "Философские проблемы искусственного интеллекта" классифицирован, как принадлежащий разделу "Индийская философия и буддизм" во-первых, и "Общие вопросы философии" - во-вторых.

6. Нейрокомпьютинг - 16 (9).

При этом 4 текста из 7 неправильно классифицированных, определены как принадлежащие разделу "Искусственный интеллект", а 2 из этих 4-х "во-вторых" принадлежат разделу "Нейрокомпьютинг". 6 из 9 правильно классифицированных "во-вторых" принадлежат разделу "Искусственный интеллект".

7. Системы управления базами данных - 14 (12).

При этом, текст Л.К. Боброва "Мировая индустрия онлайновых баз данных" оказался принадлежащим разделу "Психология", а текст Эндрю Ларсена и др. "Oracle Media Server" - "Нейрокомпьютинг", что следует считать безусловно неверным.

Таким образом, формально, из 96 текстов опознаны неверно 15, и точность классификации примерно равна 84%. Принципиально неправильно классифицированными я бы посчитал только 8 текстов, подняв точность до 92%.

3.2.

Все классифицирующие тексты оказались принадлежащими своим предметным областям (что не очевидно).

3.3.

Попытка сделать большее ударение на роль контекста путем учета не только суммарного веса множества пересечения, но и его размерности, ухудшила результат.

3.4.

Хотя было понятно, что при данном методе классификации использование взвешенных терминов в тезаурусах может только ухудшить результат, проверил и этот вариант. Каждому термину сопоставлялся вес, равный среднему значению веса доминанты в классифицирующих текстах. Итог ярко иллюстрирует факт, что несколько классифицирующих текстов оказались принадлежащими совершенно иным предметным областям.

4. Основные выводы

1. Метод классификации ЕЯ-текстов основе доминантных лексем безусловно работоспособен и обладает рядом достоинств:

очень небольшое множество слов, представляющих текст, что резко сокращает число операций сравнения;
возможность сквозной автоматизации всех процессов на основе единой модели, вплоть до выбора классифицирующих текстов (используя предварительную кластеризацию, см. [1,2])

2. Наиболее важными факторами, определящими точность классификации рассматриваемым методом, являются: выбор классифицирующих текстов и состав стоп-словаря, используемого на первом этапе лексического анализа.

5.Литература

1. Солтон Дж. Динамические библиотечно-информационные системы. М.:Мир, 1979.

2. Чанышев О.Г. Ассоциативная модель реального текста и ее применение в процессах автоиндексирования. //Труды Седьмой национальной конференции по искусственному интеллекту с международным участием КИИ'2000. Москва, Издательство Физико-математической литературы, 2000, с. 430-438.

Ваши комментарии
Обратная связь

[Головная страница]
[Конференции]
[СО РАН]