Конференции ИВТ СО РАН


IX рабочее совещание по электронным публикациям
"EL-Pub2004” (с участием иностранных ученых)

23-25 сентября, Академгородок, Новосибирск

Тезисы докладов


Опыт создания институтского депозитария электронных документов: решения, проблемы и перспективы

Набиуллин А.А., Суботэ А.Е., Губанов Р.П.

Отдел информационных технологий
Тихоокеанский океанологический институт им. В.И.Ильичева ДВО РАН (Владивосток)

Создание депозитария электронных документов и удобной системы управления архивом документов является одной из форм научной организации труда ученых и преподавателей, повышающей его эффективность и служащей объединяющей силой в коллективных исследованиях. Работа в этом направлении ведется в Отделе информационных технологий Тихоокеанского океанологического института им. В.И. Ильичева ДВО РАН в течение нескольких лет. Для большого и многопрофильного института, каким является ТОИ ДВО РАН, представляется логичным создание такого депозитария как единой службы хранения, обработки и поиска научных документов (рукописей, статей из журналов, отчетов, глав из книг, карт и т.д.).

Технически основой такой службы является выделенный информационный сервер InfoNet, работающий под операционной системой семейства Unix со стандартными сервисами www и ftp (web-сервер Apache и любой ftp-сервер соответственно). Реализация депозитария и системы управления архивом выполенна средствами языка perl. Особенностью описываемой системы является два интерфейса доступа - через анонимный FTP-сервер, доступный только в локальной сети института, и через веб-сервер, требующий аутентификации для работы с системой. Иерархия файловой структуры депозитария обусловлена наличием больших разделов для хранения журнальных статей, рукописей, глав из книг, отчетов, диссертаций, карт и т.п. Управление разделами предоставлено администраторам, которые делятся на три уровня по привилегиям, причем в эту работу активно включены сотрудники института - специалисты в конкретных областях знаний.

Основными источниками электронных документов являются электронные библиотеки, серверы традиционных и электронных издательств, серверы институтов и университетов, а также персональные страницы их сотрудников. Кроме того, многочисленные работы были получены от их авторов в виде PDF-файлов или в виде оттисков с последующим сканированием и переводом в PDF-формат. Были отсканированы также статьи, опубликованные в различных журналах и сборниках в "доэлектронную эпоху". Картографические материалы, как правило, доступны в нескольких форматах: растровый (GIF или JPEG), векторный AI или CDR), а также в виде PDF-файлов. Тематика представленных ресурсов в основном отражает направления работы института в области наук о Земле, хотя есть разделы общей направленности: математическое моделирование, электронные коммуникации, GIS, наукометрия и библиотечное дело.

Структура управления депозитарием предполагает наличие двух основных групп учетных записей: администраторов и пользователей. Группа администраторов делится на собственно администраторов, имеющих неограниченные права в системе, модераторов, ведущих какое-то научное направление в архиве, и кураторов, отвечающих за какой-то конкретный журнал или периодическое издание. Группа пользователей делится на обычных и доверенных абонентов. Последние отличаются тем, что им доверены дополнительные (хотя и ограниченные по сравнению с администраторами) права по управлению депозитарием.

Структура учетных записей создана с ориентацией на большую многодисциплинарную систему хранения электронных документов, в которой существует группа доверенных абонентов (сотрудников с опытом работы в системе), помогающих администраторам в управлении депозитарием. У каждого пользователя системы есть личная страница, на которой представлены избранные журналы, статьи (главы из книг), личные коллекции и подписка на специализированные рассылки электронной почты.

В настоящее время наиболее разработанной частью системы является раздел научных журналов. Каждый журнал представлен кратким описанием (полное название, ISSN номер, редактор, издатель и страна издания, периодичность, веб-сайт журнала, тематика, куратор журнала в системе и ссылка на файл "Правила для авторов", если он имеется у издателя). Если Институт имеет доступ к полным текстам статей данного журнала (например, на сайте e-library.ru), в примечаниях указан электронный адрес журнала и годы доступных выпусков. Далее приведены данные по наличию статей этого журнала в депозитарии и дате последнего обновления, а также представлен список имеющихся статей в виде краткого библиографического описания: журнал, год, том, номер, страницы. Наличие простой поисковой системы дает возможность использовать данный раздел в качестве справочной БД по научным журналам (в том числе и электронным) и издательствам.

Поскольку основой депозитария послужили несколько подобранных по тематикам коллекций опубликованных работ, эти и вновь созданные коллекции также нашли отражение в логической структуре системы. Коллекции (подборки статей) подразделяются на общие (доступные все абонентам системы) и личные, созданные конкретным абонентом и доступные только для него. Личные коллекции по желанию владельца могут быть переданы в общий доступ или другому абоненту в личное пользование. В коллекциях, как правило, статьи описаны более полно - приведены авторы работ и их названия. В этом случае, в списке статей журнала, где опубликована данная статья из коллекции, указано какой коллекции она принадлежит и приведено полное библиографическое описание (без реферата). Разрабатываемая подсистема комментариев к статьям коллекции позволяет описывать отдельные или все документы коллекции, что может служить вспомогательным средством при создании аннотированной библиографии по определенной тематике. Аннотированные коллекции статей являются удобным инструментом для научных сотрудников, преподавателей, студентов и аспирантов в работе с библиографическими базами данных, в процессе подготовки учебных курсов, диссертаций, дипломных работ и пр.

Поисковая часть управления депозитарием работает на известной поисковой системе mnoGoSearch (адрес http://www.mnogosearch.com, свободна от лицензионных отчислений), с модулем индексирования PDF-файлов. Вспомогательную роль в организации поиска (особенно для "старых" PDF-файлов, полученных из сканированных образов страниц) играет система индексирования авторов и названий статей, введенных при создании коллекций.

В рамках системы депозитария электронных документов работают также тематические подписки (рассылки) по основным разделам, позволяющие абонентам системы обмениваться по электронной почте информацией между собой и с администраторами. Планируется также возможность добавления комментария к представленным материалам (критические замечания и комментарии, перевод на русский язык и др.), ссылки на другие материалы депозитария или в сети Интернет, а также возможность обращения напрямую к авторам работ.

Данная система хранения электронных документов построена на стандартных де-факто и свободных от лицензионных отчислений программных продуктах с возможностью масштабирования, сужения/расширения количества разделов, полного или частичного реплицирования БД. Планируемое развитие системы электронного депозитария позволит создать ряд дополнительных служб, а главное - построить систему на основе XML-описаний, сопряженную с какой-либо СУБД (планируется поддержка MySQL или PostgreSQL).

Примечание. Тезисы докладов публикуются в авторской редакции



Ваши комментарии
Обратная связь
[ICT SBRAS]
[Головная страница]
[Конференции]

© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск