Новосибирский государственный университет

Факультет информационных технологий

Современные проблемы информатики и вычислительной техники

ICT SBRAS
А.М.Федотов

Словарь терминов в коллекции "Современные проблемы информатики"

Информационно-поисковый тезаурус (ИПТ)

Синонимы: Информационно-поисковый тезаурус; ИПТ;

Информационно-поисковый тезаурус (ИПТ) — это контролируемый словарь терминов на естественном языке, явно указывающий отношения между терминами и предназначенный для информационного поиска.

Основными целями разработки традиционных ИПТ являются следующие:

    - обеспечение перевода естественного языка документов и пользователей на контролируемый словарь, применяемый для индексирования и поиска;
    - обеспечение последовательного использования единиц индексирования;
    - описание отношений между терминами;
    - использование как поискового средства при поиске документов;
    - Единицы традиционных информационно-поисковых тезаурусов.
Основной единицей тезаурусов являются термины, которые разделяются на дескрипторы (авторизованные термины) и недескрипторы (аскрипторы). Большинство версий стандартов по ИПТ указывают на связь терминов с понятиями предметной области. По американскому стандарту термин — это слово либо словосочетание, обозначающее понятие. Стандарт ISO подчеркивает, что индексирующий термин — это представление понятия предпочтительно в форме существительного или именной группы. При этом понятие рассматривается как единица мысли, которая формируется мысленно для отражения всех или некоторых свойств конкретного или абстрактного, реально существующего или мысленного объекта. Понятия существуют как абстрактные сущности, независимо от терминов, которые их выражают. Стоит отметить, что не все разработчики тезаурусов четко разделяли понятия и термины. Так, разработчики тезауруса AGROVOC определили его как термино- ориентированный (term-oriented), что находит свое проявление в том, что к термину невозможно добавить синонимы. Эта особенность тезауруса рассматривается авторами как недостаток, который необходимо исправить. Таким образом, разработчики тезаурусов предполагают, что понятие предметной области обычно имеет несколько возможных вариантов лексического представления в тексте, которые рассматриваются как синонимы. Среди таких синонимов выбирается дескриптор — термин, который рассматривается как основной способ ссылки на понятие в рамках тезауруса. Другие термины из синонимического ряда, включенные в тезаурус, называются аскрипторами или недескрипторами. Они используются как вспомогательные элементы, текстовые входы, помогающие найти подходящие дескрипторы. Дескрипторы тезауруса должны соответствовать выбранной предметной области тезауруса. Каждый дескриптор, внесенный в тезаурус, должен представлять отдельное понятие данной области. Дескриптор может быть однословным или многословным. Поскольку часто бывает достаточно трудно понять, представляет ли отдельное понятие многословное словосочетание, многие тезаурусы и руководства уделяют особое внимание основным принципам включения в тезаурус в качестве дескрипторов многословных терминов.
Набор дескрипторов должен удовлетворять следующим требованиям:
    - посредством выделенных дескрипторов должно быть возможно описать темы абсолютного большинства текстов предметной области;
    - для уменьшения субъективности индексирования множество дескрипторов не должно включать совокупности близких дескрипторов; для этого формируются классы условной эквивалентности, когда совокупности близких, но различных понятий сводятся к одному дескриптору;
    - дескриптор должен быть сформулирован однозначно, его подразумеваемое в рамках тезауруса значение должно быть понятно пользователю. Если однозначный и ясный дескриптор подобрать не удается, термин, взятый в качестве дескриптора, снабжается релятором (краткой пометой) или комментарием.
Отношения в информационно-поисковом тезаурусе:
    род — вид;
    часть — целое;
    причина — следствие;
    сырье — продукт;
    административная иерархия;
    процесс — объект;
    функциональное сходство;
    процесс — субъект;
    свойство — носитель свойства;
    антонимия.
Такие содержательные типы связей между дескрипторами чаще всего не отражаются в подробном перечне отношений тезауруса, а записываются с помощью небольшого набора отношений, которые обычно разделяются на два типа: иерархические и ассоциативные.

Иерархические отношения обладают свойствами транзитивности и антисимметричности, которые могут быть использованы при избыточном индексировании в интересах повышения эффективности информационного поиска. Предпочтительно указывать связи между дескрипторами как отношения иерархического вида, если они обладают этими свойствами. Применяемые в ИПТ иерархические отношения могут дифференцироваться на отдельные виды. Основным иерархическим отношением, используемым в ИПТ, является родо- видовое отношение (оно же — отношение НИЖЕ-ВЫШЕ). Родо-видовая связь устанавливается между двумя дескрипторами, если объем понятия нижестоящего дескриптора входит в объем понятия вышестоящего дескриптора. Также в качестве иерархического отношения в ИПТ может устанавливаться отношение ЧАСТЬ-ЦЕЛОЕ. Многие руководства и стандарты подчеркивают, что иерархические отношения в ИПТ должны устанавливаться в тех случаях, когда отношения истинны независимо от контекста — только в таких случаях дескрипторы ИПТ могут быть организованы в иерархии. Эта рекомендация связана с тем, что обычно в информационном поиске очень трудно четко определить контекст употребления термина и понять, применимо ли в данном контексте то или иное отношение. Так, для мышей можно указать, что они грызуны, поскольку это внутренняя характеристика мышей. В то же время неправильно указывать, что мыши — вредители, поскольку имеются лабораторные мыши и домашние мыши, которые вредителями не являются. Рекомендуется использовать тест "все- некоторые". Например, "все мыши являются грызунами, но некоторые мыши являются вредителями". Основное назначение установления ассоциативных отношений между дескрипторами ИПТ — указание на дополнительные дескрипторы, полезные при индексировании или поиске. Отношение ассоциации является неиерархическим и ассоциативным. Ассоциативное отношение наиболее трудно определить. Российский стандарт на создание ИПТ указывает, что "ассоциативное отношение является объединением отношений, не входящих в иерархические отношения или в отношения синонимии. Допускается включать в ассоциативное отношение все виды отношений, кроме синонимии и отношения РОД-ВИД".

Одним из подходов для автоматизации индексирования по традиционным ИПТ является подход, основанный на правилах. Такой подход к автоматическому индексированию был реализован по тезаурусу EUROVOC. Правила могут быть простыми и сложными. Простые правила не содержат условий. Сложные правила содержат такие условия, как Близость (на расстоянии трех слов по тексту, в одном предложении, в том же самом поле, например, в поле реферата), Местонахождение (в заголовке, в тексте реферата или документа, в начале предложения, в конце предложения), Формат (с большой буквы, все большими буквами). Всего было создано около 40 тысяч правил. В качестве других подходов автоматизации индексирования используются статистические методы. При таких подходах процесс автоматического приписывания дескрипторов тезауруса EUROVOC полнотекстовым документам включает две стадии. На первой стадии (этап обучения) на основе документов, вручную проиндексированных индексаторами, устанавливается соответствие между словами, встретившимися в тексте документа, и приписанными дескрипторами тезауруса. Соответствие устанавливается на основе статистических мер (chi-square или log-likelihood). Вес соответствия отдельного слова ключевому слову тем выше, чем выше совместная частотность использования данного слова и данного ключевого слова относительно частотности во всей коллекции. На второй стадии (собственно индексирование) для каждого слова документа проверяется, каким дескрипторам тезауруса оно соответствует. Если такие дескрипторы имеются, то слово добавляет к весу дескриптора для данного текста натуральный логарифм веса, полученного на первом этапе. После обработки всех слов текущего текста получается суммированный вес дескрипторов тезауруса. Например, для Резолюции по правам языковых и культурных меньшинств в Европейском союзе были получены следующие дескрипторы (в порядке убывания веса): Community programme, Young person, Cultural policy, CEEC, European Union и т.д. Выдачу системы можно ограничить по количеству выдаваемых дескрипторов или по весу. Для текста примера присвоенные индексаторами дескрипторы находились в первой тридцатке дескрипторов, присвоенных автоматически (на позициях 3, 8, 9, 16 и 30). При этом большинство автоматически присвоенных дескрипторов выглядят весьма релевантными тексту документа и только 3 из 40 присвоенных автоматически явно неправильны (например, Кипр). Сочетание свободных запросов и запросов на основе информационно-поисковых тезаурусов В настоящее время в мире существует достаточно много информационных систем, предоставляющих пользователям возможности поиска информации как по свободному запросу на естественном языке, так и с помощью дескрипторов информационно-поисковых тезаурусов, сопоставленных документам профессиональными индексаторами. Первым шагом на этом пути может быть нахождение корреляций между словами документов и дескрипторами тезауруса или рубриками рубрикатора.

Закон Ципфа (Зипфа) — эмпирическая закономерность распределения частоты слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу этого слова). Например второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и т. д.

Ключевые термины, связанные с термином "Информационно-поисковый тезаурус":

  1. Вспомогательный дескриптор
  2. Графический указатель информационно- поискового тезауруса
  3. Дескриптор
  4. Дескрипторный информационно-поисковый язык
  5. Дескрипторный словарь
  6. Иерархический указатель информационно- поискового тезауруса
  7. Ключевое слово
  8. Ключевые слова в контексте
  9. Код дескриптора
  10. Контролируемое индексирование
  11. Лексико-семантический указатель
  12. Макротезаурус
  13. Микротезаурус
  14. Многоязычный информационно-поисковый тезаурус
  15. Нондескриптор
  16. Одноязычный информационно-поисковый тезаурус
  17. Пермутационный указатель информационно- поискового тезауруса
  18. Политематический информационно-поисковый тезаурус
  19. Систематический указатель информационно- поискового тезауруса
  20. Специализированный информационно-поисковый тезаурус
  21. Язык ключевых слов

Литература

Дополнительная:

  1. ГОСТ 7.25-2001 Тезаурус информационно-поисковый Одноязычный. Правила разработки, структура, состав и форма представления.
  2. ГОСТ 7.74-96 Информационно-поисковые языки. Термины и определения

Ссылки на персон:

  1. Муэрс Кельвин

Ключевые термины (головные):  тезаурус;   информационный поиск;   Автоматизированный информационный поиск;


Контекстный поиск: Задайте образец для поиска:

|Головная| |Преподавание| | Современные проблемы информатики| |Информатика| |Ключевые термины| |Персоны|

Федотов Анатолий Михайлович
[SBRAS]
НГУ
ФИТ НГУ
ИВТ СО РАН
© 1998-2017, Новосибирский государственный университет, Новосибирск
© 1998-2017, Институт вычислительных технологий СО РАН, Новосибирск
© 1998-2017, Федотов А.М.
    Дата последней модификации: 23.07.2013