Информационные технологии
При запросах к нескольким разнородным библиографическим источникам возникает проблема выявления повторяющихся записей. В работе проанализированы проблемы, возникающие в процессе установления нечеткого соответствия между двумя записями. Рассмотрены существующие методы и алгоритмы решения задачи исключения дубликатов и, в частности, подходы к определению и вычислению функции похожести строк.
Приведены примеры существующих подходов к решению данной проблемы. С учетом требований конкретной задачи – усовершенствования информационной системы “Научные сотрудники - математики СО РАН” - реализован метод решения, основанный на совокупном использовании в качестве функций похожести строк расстояния Левенштейна и наибольшей общей подпоследовательности двух элементов данных. Метод был протестирован на нескольких базах данных публикаций СО РАН, в числе которых база данных публикаций журнала “Вычислительные технологии” и база данных публикаций системы “Web-ресурсы математического содержания”. По итогам проведённого тестирования метод продемонстрировал высокую эффективность работы и был применён для системы “Научные сотрудники – математики СО РАН” и разрабатываемой в данный момент интегрированной системы удалённого доступа к разнородным ресурсам библиографической тематики.
Примечание. Тезисы докладов публикуются в авторской редакции
Ваши комментарии Обратная связь |
[Головная страница] [Конференции] |
© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск
Дата последней модификации: 06-Jul-2012 (11:48:14)