Информационная система "Конференции"



Международная конференция молодых ученых по математическому моделированию и информационным технологиям

29-31 октября 2002 года, Новосибирск, Академгородок

Тезисы докладов


Информационные технологии

Способы классификации документов в Интеренет

Караханов А.С.

Институт вычислительных технологий СО РАН (Новосибирск)

В связи с растущими объемами информации в настоящее время остро стоит проблема хранения, классификации и поиска документов.

Первым шагом в упорядочении информации стало появление информационно-поисковых систем, основывающихся на автоматическом индексировании документов. Данные системы являются наиболее простыми в реализации и способны охватывать большой объем информационных источников, давая более полные результаты поиска. Однако точность поиска в таких системах крайне низкая и в силу обширности ответа найти конкретную информацию, зачастую, почти невозможно.

Далее появились системы (а также были расширены существующие) содержащие тематические каталоги, которые дают намного более точные результаты. Однако создание и ведение таких систем выполняется вручную и требует высокого знания администратором предметной области и большого времени на создание и обновление ресурсов такого рода. В следствие этого системы данного рода имеют небольшой охват предметной области и полнота тематических каталогов значительно меньше, чем у автоматических классификаторов.

В данное время активно ведется разработка системы автоматических тематических каталогов, которые самостоятельно могут классифицировать документы в соответствии с теми или иными существующими стандартами (УДК и т.д.). Созданный таким образом автоматический тематический каталог может заменить человека (администратора или оператора поисковой системы), позволит выполнить работу по созданию, обслуживанию и обновлению тематического каталога поисковой системы.

Однако, недостатком последних двух систем является необходимость наличия стандарта или классификационного словаря конкретной области. Так например для классификации библиотечных изданий уже существует стандарты, которые создавались годами на основе опыта различных библиотек, в то время как для классификации документов в конретной тематического направления зачастую требуется специалист со знанием предметной области.

В связи с этим встает проблема создания инструмента, который бы помогал специалисту той или иной области при создании соответствующего словаря.

Основными проблемами в этом случае являются:

Дополнительные материалы: HTML
Примечание. Тезисы докладов публикуются в авторской редакции



Ваши комментарии
Обратная связь
[ICT SBRAS]
[Головная страница]
[Конференции]

© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск
    Дата последней модификации: 06-Jul-2012 (11:47:01)