VII Международная конференция по электронным публикациям "EL-Pub2002"

23-27 сентября 2002 г., г. Новосибирск, Академгородок,
(номер государственной регистрации 0320300063)

Тезисы докладов


Белорусские электронные издания по проблемам Чернобыля. Проблемы и перспективы

Дромашко С.Е.*, Макеева Е.Н.**, Панич И.А.*

*Институт генетики и цитологии Национальной академии наук Беларуси (Минск),
**Johns Hopkins University (Baltimore,
USA)

В вопросах интеграции информационных ресурсов по естественнонаучным дисциплинам одной из ключевых является проблема сбора, организации и поиска информации в рамках конкретных областей исследования (экология, ботаника, зоология, лесоведение, генетика, радиобиология и др.). При этом возникают две задачи: 1) создания определенной, четко и однозначно трактуемой понятийной базы, т.е. толковых словарей по соответствующим дисциплинам и 2) представления информации междисциплинарного характера, выходящей за рамки одной конкретной области, т.е. создания поисковых систем с максимально возможной полнотой охвата имеющихся материалов и по своим «интеллектуальным» возможностям приближающихся к референту-эксперту. В докладе мы остановимся преимущественно на решении второй задачи, хотя и в создании электронных словарей в последнее время нами приобретен определенный опыт.

В Институте генетики и цитологии НАН Беларуси с 1991 г. накапливается банк информации по проблемам Чернобыля, являющийся результатом прямого просмотра и реферирования литературы, выходящей в Беларуси, России и на Украине. Этот банк стал основой для разработки базы данных междисциплинарной информации CHEDIBASE (CHErnobyl Digest Information BASE) и междисциплинарного бюллетеня чернобыльской информации на русском и английском языках "Чернобыль дайджест"/"Chernobyl Digest".

С 1991 г. подготовлено 6 выпусков "Чернобыль дайджест"/"Chernobyl Digest". Эта междисциплинарная информация представляет большой интерес для специалистов-катастрофологов, биологов, экологов, медиков, психологов и др. Потребность в подобной информации и ее оперативном предоставлении пользователям со временем не уменьшается и заставляет думать об использовании средств новейших информационных технологий для удовлетворения читательского спроса на самом современном уровне. C мая 2000 г. бюллетень размещается на сервере Отделения биологических наук НАН Беларуси BIOBEL (http://biobel.bas-net.by/igc/ChD).

Поскольку бюллетень содержит только часть (от 30 до 50% из имеющихся более чем 4 тысяч рефератов, в зависимости от языка издания) информации, накопленной в CHEDIBASE, встает задача сделать доступным для удаленного пользователя весь массив имеющихся в нашем распоряжении сведений. Так как в начальный период для формирования CHEDIBASE нами использовалась СУБД FoxPro, в 1998–1999 гг. был осуществлен перевод информации на СУБД Access, более современную и удобную в онлайновом использовании.

В настоящее время структура CHEDIBASE включает в себя все необходимые сведения для поиска и систематизации информации как по содержанию работы, так и по вспомогательным данным (году издания, источнику, номеру страницы и т.п.), а также имеет дополнительные поля, предназначенные для проведения контент-анализа информации. Нами разработана система дескрипторных кодов (ДК), используемых для заполнения специально предназначенных полей БД, что позволяет определить для каждой записи такие параметры, как объект исследования; предмет исследования; дисциплину, в которой исследования проводились; методику исследования. Коды присваиваются информации специалистом-референтом в процессе ее аналитической обработки, а следовательно, каждый присвоенный дескриптор несет в себе возможность осуществления достаточно глубокого смыслового поиска. Результаты показали, что смысловая компонента ДК в сочетании с поисково-систематизационными возможностями используемой СУБД обеспечивает возможность автоматизированного аналитического отбора данных, отвечающих необходимому признаку или их комбинации. До недавнего времени возможность заменить человека в таком интеллектуальном поиске ставилась под сомнение.

Необходимо отметить особенности и преимущества поисково-сортировочной системы, использующей ДК. Одним из наиболее распространенных методов поиска и сортировки информации в современных БД является поиск по ключевому слову. Этот метод поиска используется в большинстве современных систем, работающих с информационными массивами. Как правило, роль ключевого слова во всех этих системах играет любой термин из наиболее часто встречающихся в конкретной работе. Отбор по ДК дает возможность снизить вероятность пропуска работ, возможный при отборе по вышеупомянутой методике и происходящий из-за неадекватности используемых пользователем и референтом терминов. Интересующий пользователя признак, который обычно описывается большим синонимическим набором слов, в предлагаемой нами системе будет определяться лишь одним ДК. Кроме того, справочная таблица ДК, которой пользуется и референт, и пользователь, невелика по объему (по сравнению с необходимым исчерпывающим справочником ключевых слов) и удобно скомпонована.

В настоящее время разрабатываются и широко пропагандируются так называемые «электронные энциклопедии», т.е. компьютерные программы, которые позволяют хранить большие объемы информации и манипулировать ими, идентифицируя тексты в соответствии с имеющимся рубрикатором. При этом отмечается, что это достаточно дорогой продукт, и что разработкой любой энциклопедии занимается обычно один коллектив, а переводом ее в электронный вид – уже другой коллектив, при этом люди, не имеющие гуманитарного образования, вынуждены достаточно глубоко вникать в гуманитарные проблемы. Таблицы дескрипторов, использованные в CHEDIBASE, полностью согласуются с рубрикатором электронной энциклопедии, но при этом создание таблицы дескрипторных кодов осуществить значительно легче. Любой специалист (например, биолог или генетик) может создать таблицу дескрипторов, а затем и базу данных самостоятельно, без необходимости организовывать совместную работу с коллективом специалистов–математиков. Для этого достаточно ознакомиться с основными приемами работы в СУБД Access, которая имеется в любой компьютерной системе, где установлен пакет Microsoft Office, и с основными принципами, положенными в основу составления таблицы дескрипторов.

Дополнительные материалы: HTML
Примечание. Тезисы докладов публикуются в авторской редакции



|Электронная библиотека| |Математические публикации| |Информационные ресурсы|
Ваши комментарии
Обратная связь
[SBRAS]
[Головная страница]
[Конференции]
[СО РАН]

© 2002, Сибирское отделение Российской академии наук, Новосибирск
© 2002, Объединенный институт информатики СО РАН, Новосибирск