VII Международная конференция по электронным публикациям "EL-Pub2002"

23-27 сентября 2002 г., г. Новосибирск, Академгородок

Белорусские электронные издания по проблемам Чернобыля. Проблемы и перспективы

Дромашко С.Е., Панич И.А.
Институт генетики и цитологии Национальной академии наук Беларуси, Минск
Макеева Е.Н.
Johns Hopkins University, Baltimore, USA


В вопросах интеграции информационных ресурсов по естественнонаучным дисциплинам одной из ключевых является проблема сбора, организации и поиска информации в рамках конкретных областей исследования (экология, ботаника, зоология, лесоведение, генетика, радиобиология и др.). При этом возникают две задачи: 1) создания определенной, четко и однозначно трактуемой понятийной базы, т.е. толковых словарей по соответствующим дисциплинам и 2) представления информации междисциплинарного характера, выходящей за рамки одной конкретной области, т.е. создания поисковых систем с максимально возможной полнотой охвата имеющихся материалов и по своим «интеллектуальным» возможностям приближающихся к референту-эксперту. В докладе мы остановимся преимущественно на решении второй задачи, хотя и в создании электронных словарей в последнее время нами приобретен определенный опыт.

В Институте генетики и цитологии НАН Беларуси с 1991 г. накапливается банк информации по проблемам Чернобыля, являющийся результатом прямого просмотра и реферирования литературы, выходящей в Беларуси, России и на Украине. Этот банк стал основой для разработки базы данных междисциплинарной информации CHEDIBASE (CHErnobyl Digest Information BASE) и междисциплинарного бюллетеня чернобыльской информации на русском и английском языках "Чернобыль дайджест"/"Chernobyl Digest".

С 1991 г. подготовлено 6 выпусков "Чернобыль дайджест"/"Chernobyl Digest". Эта междисциплинарная информация представляет большой интерес для специалистов-катастрофологов, биологов, экологов, медиков, психологов и др. Потребность в подобной информации и ее оперативном предоставлении пользователям со временем не уменьшается и заставляет думать об использовании средств новейших информационных технологий для удовлетворения читательского спроса на самом современном уровне. C мая 2000 г. бюллетень размещается на сервере Отделения биологических наук НАН Беларуси BIOBEL (http://biobel.bas-net.by/igc/ChD). Рис. 1 показывает фрагмент главной страницы этого сайта. Перечень выпусков бюллетеня приведен в табл. 1.


Рис. 1. Фрагмент основной страницы сайта "Чернобыль дайджест"/"Chernobyl Digest".

Табл. 1. Выпуски бюллетеня "Чернобыль дайджест"/"Chernobyl Digest",
бумажная и электронная версии, их доступность по каналам Интернет.

№№

Выпуск, его форма

1

Чернобыль индекс’91. Выпуск 1. – Минск, 1991. – 192 с. / Chernobyl Digest’91. Issue 1. – Minsk–Moscow, 1991. – 75 p.

2

Чернобыль индекс’91–92. Выпуск 2. – Минск, 1992 (на русском языке, в электронной форме)

3

Чернобыль дайджест'93–94. Выпуск 3 .– Минск, 1995. – 204 с. / Chernobyl Digest’93-94. Issue 3. – Minsk, 1995. – 108 p.

4

Чернобыль дайджест'94–95. Выпуск 4. – Минск, 1996. – 275 с. / Chernobyl Digest’94-95. Issue 4. – Minsk, 1996. – 115 p.

5

Chernobyl Digest’95-98. Issue 5. – Minsk, 1999. – 257 p. / Чернобыль дайджест’95–99. Выпуск 5. – Минск, 2000 (на русском языке, в электронной форме)

6

Chernobyl Digest’98-2000. Issue 6. – Minsk, 2001. – 171 p. / Чернобыль дайджест’98–2000. Выпуск 6. – Минск, 2001. – 189 с.

7

Chernobyl Digest Supplement. Book Review. – Minsk, 2001. / Чернобыль дайджест. Приложение. Обзор книг. Приложение. Обзор книг. – Минск, 2001 (в электронной форме)

Поскольку бюллетень содержит только часть (от 30 до 50% из имеющихся более чем 4 тысяч рефератов, в зависимости от языка издания) информации, накопленной в CHEDIBASE, встает задача сделать доступным для удаленного пользователя весь массив имеющихся в нашем распоряжении сведений. Так как в начальный период для формирования CHEDIBASE нами использовалась СУБД FoxPro, в 1998–1999 гг. был осуществлен перевод информации на СУБД Access, более современную и удобную в онлайновом использовании.

В настоящее время структура CHEDIBASE включает в себя все необходимые сведения для поиска и систематизации информации как по содержанию работы, так и по вспомогательным данным (году издания, источнику, номеру страницы и т.п.), а также имеет дополнительные поля, предназначенные для проведения контент-анализа информации (см. табл. 2).

Табл. 2. Структура базы данных Чернобыльской междисциплинарной информации CHEDIBASE.

AUTHOR

Имена авторов работы
TITLE Наименование работы
SOURCE Наименование издания, в котором работа опубликована 
YEAR Год опубликования
NUMBER Номер периодического издания
PAGE Номера страниц или их общее количество
SUBJECT Объект(ы) исследования данной работы
OBJECT Предмет(ы) исследования работы
DISCIPL Научные дисциплины, в области которых проводились исследования
METHOD Используемые методы
DOCUMENT Вид работы (книга, статья, тезисы..)
LANGUAGE Язык, на котором работа опубликована
ABSTRACT Реферативный обзор работы

Нами разработана система дескрипторных кодов (ДК), используемых для заполнения специально предназначенных полей БД, что позволяет определить для каждой записи такие базовые параметры (рубрики), как

1) объект исследования;
2) предмет исследования;
3) дисциплина, в которой исследования проводились;
4) методика исследования.

Каждая из этих рубрик имеет дополнительное деление на более мелкие разделы, что позволяет осуществлять как более грубый, так и более тонкий поиск информации, как по конкретному признаку, так и по их сочетанию (см. табл. 3). При необходимости таблицу ДК можно дополнять и изменять.

Табл. 3. Пример классификации в CHEDIBASE с использованием системы ДК.

Объекты исследования радиационной медицины (02.)

02.02. Взрослые
02.02.1. Взрослое население радиационных территорий

02.02.2. Ликвидаторы

02.02.3. Беременные женщины радиационных территорий и т.д.
02.04. Дети
02.04.1. Детское население радиационных территорий

02.04.2. Новорожденные и младенцы радиационных территорий

02.04.3. Потомство облученных родителей и т.д.

Коды присваиваются информации специалистом-референтом в процессе ее аналитической обработки, а следовательно, каждый присвоенный дескриптор несет в себе возможность осуществления достаточно глубокого смыслового поиска. Результаты показали, что смысловая компонента ДК в сочетании с поисково-систематизационными возможностями используемой СУБД обеспечивает возможность автоматизированного аналитического отбора данных, отвечающих необходимому признаку или их комбинации. До недавнего времени возможность заменить человека в таком интеллектуальном поиске ставилась под сомнение. Пример обработки данных, отобранных в автоматическом режиме по ДК, приведен на рис. 2.


Рис. 2. Публикации по генетике в области медицинских наук, отобранные с помощью системы ДК.

Необходимо отметить особенности и преимущества поисково-сортировочной системы, использующей ДК. Одним из наиболее распространенных методов поиска и сортировки информации в современных БД является поиск по ключевому слову. Этот метод поиска используется в большинстве современных систем, работающих с информационными массивами. Как правило, роль ключевого слова во всех этих системах играет любой термин из наиболее часто встречающихся в конкретной работе. Отбор по ДК дает возможность снизить вероятность пропуска работ, возможный при отборе по вышеупомянутой методике и происходящий из-за неадекватности используемых пользователем и референтом терминов. Интересующий пользователя признак, который обычно описывается большим синонимическим набором слов, в предлагаемой нами системе будет определяться лишь одним ДК. Кроме того, справочная таблица ДК, которой пользуется и референт, и пользователь, невелика по объему (по сравнению с необходимым исчерпывающим справочником ключевых слов) и удобно скомпонована.

В настоящее время разрабатываются и широко пропагандируются так называемые «электронные энциклопедии», т.е. компьютерные программы, которые позволяют хранить большие объемы информации и манипулировать ими, идентифицируя тексты в соответствии с имеющимся рубрикатором. При этом отмечается, что это достаточно дорогой продукт, и что разработкой любой энциклопедии занимается обычно один коллектив, а переводом ее в электронный вид – уже другой коллектив, при этом люди, не имеющие гуманитарного образования, вынуждены достаточно глубоко вникать в гуманитарные проблемы. Таблицы дескрипторов, использованные в CHEDIBASE, полностью согласуются с рубрикатором электронной энциклопедии, но при этом создание таблицы дескрипторных кодов осуществить значительно легче. Любой специалист (например, биолог или генетик) может создать таблицу дескрипторов, а затем и базу данных самостоятельно, без необходимости организовывать совместную работу с коллективом специалистов–математиков. Для этого достаточно ознакомиться с основными приемами работы в СУБД Access, которая имеется в любой компьютерной системе, где установлен пакет Microsoft Office, и с основными принципами, положенными в основу составления таблицы дескрипторов.



|Электронная библиотека| |Математические публикации| |Информационные ресурсы|
Ваши комментарии
Обратная связь
[SBRAS]
[Головная страница]
[Конференции]
[СО РАН]

© 2002, Сибирское отделение Российской академии наук, Новосибирск
© 2002, Объединенный институт информатики СО РАН, Новосибирск