Информационная система "Конференции"

IX Всероссийская конференция молодых ученых по математическому моделированию и информационным технологиям

28-30 октября 2008 года, г. Кемерово

Тезисы докладов

Информационные технологии

Выявление дубликатов в разнородных библиографических источниках

Рубцов Д.Н.

Институт вычислительных технологий (Новосибирск)

При запросах к нескольким разнородным библиографическим источникам возникает проблема выявления повторяющихся записей. В работе проанализированы проблемы, возникающие в процессе установления нечеткого соответствия между двумя записями. Рассмотрены существующие методы и алгоритмы решения задачи исключения дубликатов и, в частности, подходы к определению и вычислению функции похожести строк.

Приведены примеры существующих подходов к решению данной проблемы. С учетом требований конкретной задачи – усовершенствования информационной системы “Научные сотрудники - математики СО РАН” - реализован метод решения, основанный на совокупном использовании в качестве функций похожести строк расстояния Левенштейна и наибольшей общей подпоследовательности двух элементов данных. Метод был протестирован на нескольких базах данных публикаций СО РАН, в числе которых база данных публикаций журнала “Вычислительные технологии” и база данных публикаций системы “Web-ресурсы математического содержания”. По итогам проведённого тестирования метод продемонстрировал высокую эффективность работы и был применён для системы “Научные сотрудники – математики СО РАН” и разрабатываемой в данный момент интегрированной системы удалённого доступа к разнородным ресурсам библиографической тематики.

Примечание. Тезисы докладов публикуются в авторской редакции

Ваши комментарии
Обратная связь

[Головная страница]
[Конференции]

© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск
Дата последней модификации: 06-Jul-2012 (11:48:14)