VII Международная конференция по электронным публикациям "EL-Pub2002"

23-27 сентября 2002 г., г. Новосибирск, Академгородок

Разработка информационной модели сайта газеты "Наука в Сибири"

Рычкова Е.В., Федорова Е.В.
Институт вычислительных технологий СО РАН, Новосибирск,
Новосибирский государственный университет

Аннотация:

В основу создания информационной системы сайта газеты "Наука в Сибири", находящегося на сервере Сибирского отделения РАН, положена концепция метаописаний документов, в которой каждый документ (статья газеты) представляется в виде набора объектов со своими характеристиками и атрибутами.

Авторами разработана информационная модель, которая позволяет автоматизировать генерацию номеров газеты (административный интерфейс) и организовать гибкий поиск по ключевому слову в тексте статьи, ее заголовке, аннотации к статье, а также по фамилии автора (клиентский интерфейс).

Информационные объекты хранятся в базе данных и подразделяются на типы "Статья" и "Иллюстрация", являющиеся динамическими моделями документов, благодаря чему можно легко и быстро изменить внешний вид сайта газеты. В то же время базовая модель газеты в целом является статичной, статьи и иллюстрации зафиксированы за номером выпуска газеты, нет возможности перемещать статьи или иллюстрации из одного номера в другой. Это обусловлено жесткостью реальной структуры газеты.

Сибирское отделение Российской академии наук выпускает свою информационную газету “Наука в Сибири”. Газета существует также на информационном сервере СО РАН в электронной версии http://www-sbras.nsc.ru/HBC/.

Материалы газеты часто используются и на других веб-страницах сервера СО РАН, организовано несколько тематических подборок статей газеты, например:

До настоящего времени наполнение интернет-сайта газеты “Наука в Сибири” — текст статей и содержание номеров — было представлено только в виде статичных html-файлов, что делало невозможным организацию системы поиска по материалам газеты, а также затрудняло их использование в тематических подборках статей газеты.

Таким образом, возникла необходимость создания базы данных материалов газеты. С помощью базы данных возможно автоматически генерировать html-файлы статей и сами выпуски в целом, организовать поиск по материалам газеты, хранящимся в базе данных, а также использовать статьи на других веб-страницах информационного сервера СО РАН.

Для создания базы данных материалов газеты первым, и самым важным этапом является структурирование имеющихся данных, т.е. построение информационной модели. От гибкости и функциональности построенной модели будет зависеть эффективность и функциональность всей системы.

Цели работы

Концепция создания информационной модели

Выбор технологии для построения информационных моделей

Основные требования, предъявляемые к информационным системам нового поколения:

Система помимо жестко запрограммированного каркаса должна содержать легко и гибко настраиваемую часть, управляемую знаниями, называемыми метаданными. Системы, которые используют метаданные, проще и быстрее модифицировать, они лучше других соответствуют перечисленным выше требованиям.

Согласно определению, данному коалицией Meta Data Coalition (www.mdcinfo.com) в документе “Open Information Model”, “метаданные — это описательная информация о структуре и смысле данных, а также приложений и процессов, которые манипулируют данными”[1]. Понятие метаданных уже давно и успешно используют в таких контекстах, как информационные хранилища и системы аналитической обработки данных, электронный документооборот и управление потоками работ, управление знаниями. В реляционных СУБД наряду с данными приложений хранятся данные о структуре таблиц (состав, типы, ограничения) и процессах обработки (хранимые процедуры, триггеры и т.д.). Язык HTML имеет тег <META>, содержащий данные об информации в документе.

Существует несколько технологий для разработки систем, имеющих дело с метаданными:

В данной работе выбран последний подход — отображение объектных данных на реляционную структуру. При этом используются такие достоинства реляционных СУБД, как удобство работы с данными как с множествами, наличие хорошего теоретического фундамента и стандартизированного языка доступа и управления этими данными, солидная история и широкое распространение реляционных СУБД, доказавших свою надежность и масштабируемость. [2, 4]

Построение информационной модели газеты

В основу построения информационной модели газеты была положена следующая концепция:

  1. Динамическое формирование электронной коллекции.

  2. Вся информация представляется в виде электронной коллекции документов. Основу концепции составляет возможность динамического формирования документов, составляющих коллекцию.

  3. Выделение основных типов документов.

  4. В соответствии с информационным содержанием документов выделяются основные типы документов.

  5. Разбиение документа на объекты.

  6. Рассматривается структура документа каждого типа, и в соответствии с ее логикой документ разбивается на структурные объекты.

  7. Определение типов объектов и метаописаний.

  8. В соответствии с характером хранимой информации внутри объекта и его свойствами выделяются информационные типы объектов. В соответствии с назначением объекта в общей структуре документа и выполняемыми этим объектом функциями выделяются необходимые метаописания объектов.

    Таким образом:
    тип объекта – основное свойство, сообщает о характере информационного содержания объекта документа;
    метаописание – остальные характеристики и атрибуты объекта, необходимые для функционирования объекта.

  9. Составление таблиц метаописаний документов.

  10. Типы и метаописания объектов хранятся отдельно от физической информации в специальных таблицах. Таким образом, в базе данных хранится не только информативная часть документа, но и полная информация о его структуре.

Преимущества данного подхода к построению информационных моделей

Построенная таким образом информационная модель электронной коллекции документов становится более гибкой и функциональной, так как:

В результате структура документа становится динамической. Вся информация о структуре документа хранится в базе данных, что позволяет быстро изменить документ, если потребуется.

Информационная модель газеты “Наука в Сибири”

Рассмотрим предложенный подход на примере построенной информационной модели газеты, в которой выделены два основных типа документа:

Типы объектов

  1. Текст (text)
  2. Строка (string)
  3. Число (number)
  4. Выбор из нескольких вариантов (select)

Общие свойства объектов

Документ “Статья”

Документ “Статья” имеет линейную структуру, все объекты расположены друг за другом в определенном порядке.

Были выделены следующие объекты документа (в скобках указан тип объекта):

Метаописания объектов статьи:

Документ “Иллюстрация”

Документ “Иллюстрация” не имеет линейной структуры, объекты этого документы нельзя расположить в определенном порядке друг за другом.

Для структурирования документа “Иллюстрация” введены специальные шаблоны, которые хранятся в отдельной таблице, при генерации внешнего вида статьи вместо названий объектов подставляются их значения.

Структура модели в целом.
Связи между документами “Статья” и “Иллюстрация”

Информационная модель газеты базируется на статичной структурной таблице, содержащей информацию о номерах газеты. Каждому номеру газеты в этой модели присваивается уникальный идентификационный номер. По этому номеру идентифицируются статьи одного номера, а также иллюстрации одного номера.

В любое место текстового объекта документа “Статья” может быть вставлен документ “Иллюстрация”. Это очень удобно при форматировании документа. Вставка иллюстрации в текст означает помещение в нужное место текста значка, соответствующего этой картинке. Значок картинки зависит от шаблона, которым мы хотим воспользоваться.

При генерации внешнего вида статьи программа:

  1. находит в тексте эти значки;
  2. распознает по виду значка, какая это иллюстрация (какой файл), и какой шаблон нужен для вывода;
  3. находит для каждого значка нужный шаблон;
  4. заменяет внутри шаблона имена объектов их значениями;
  5. подставляет в текст вместо значка готовый шаблон.

Таким образом, связь между документами “Статья” и “Иллюстрация” осуществляется непосредственно через текстовые объекты статьи.

В результате можно сказать, что базовая модель структуры газеты в целом – это статичная модель, статьи и иллюстрации зафиксированы за номером выпуска газеты, нет возможности перемещать статьи или иллюстрации из одного номера в другой. Это обусловлено жесткостью реальной структуры газеты. Модели документов “Статья” и “Иллюстрация”, напротив, являются динамическими. Тем самым можно легко и быстро изменить внешний вид сайта газеты.

Построенная информационная модель газеты достаточна для создания администраторского и клиентского интерфейсов для работы с газетой.

Реализация системы

Система реализована на языке программирования PHP4.

Для хранения данных была выбрана СУБД MySql.

Система состоит из трех частей: администраторская, клиентская части и администраторский модуль для генерации html-кода с материалом статьи.

Администраторская часть

Доступна только для администратора газеты; содержит интерфейс для управления БД газеты.

С помощью данной системы администратор может:

 

Общий вид системы администрирования

 

Добавление / редактирование статьи

 

Клиентская часть

Внешний вид газеты на клиентской части системы создается автоматически на основе информации о структуре и материалов газеты, хранящихся в БД. Используя навигатор по номерам газеты, можно попасть на любой выпуск “Науки в Сибири”, хранящийся в БД. Используя систему контекстного поиска, можно провести поиск фразы по всем объектам, по которым предоставлен поиск.

 

Общий вид клиентской части газеты

 

Вид системы поиска на клиентской части газеты

 

Модуль для генерации html-кода с материалом статьи

Модуль предназначен для использования материалов статей газеты на других страницах веб-сервера СО РАН; он не зависит от остальной системы. Для отображения статьи в качестве входных данных модуль использует идентификационный номер статьи и номер шаблона для верхнего и нижнего колонтитулов. Шаблоны колонтитулов также хранятся в базе данных, их можно отредактировать или создать новые.

Литература

[1] Грищенко А., Макаренко И. Системы на основе метаописаний // Открытые системы. 2001, № 10. (http://www.osp.ru/os/2001/10/042.htm).



|Электронная библиотека| |Математические публикации| |Информационные ресурсы|
Ваши комментарии
Обратная связь
[SBRAS]
[Головная страница]
[Конференции]
[СО РАН]

© 2002, Сибирское отделение Российской академии наук, Новосибирск
© 2002, Объединенный институт информатики СО РАН, Новосибирск