Опыт математического журнала в Интернет
VI рабочее совещание по электронным публикациям "El-Pub2001"
Опыт математического журнала в Интернет
  • Введение

       Ни для кого не секрет, что бурно развивающиеся в настоящее время информационные технологии в применении к различным областям человеческой деятельности приносят весьма ощутимые положительные результаты. Несмотря на участившиеся в последнее время заявления о банкротствах в области интернет-индустрии, дот-комы продолжают довольно интенсивно развиваться. На 140 закрытых интернет-проектов приходится приблизительно 1000 новых, так что банкротства вовсе не означают несостоятельности технологий, и, скорее, обусловлены иными причинами.
       Наиболее перспективными и прибыльными в настоящее время считаются так называемые B2B проекты, то есть, проекты ориентированные на отношения типа бизнес-бизнес. Такие проекты уже давно работают в банковской сфере, в сфере оптовой торговли и в производстве. Но особенные надежды возлагают на сеть, когда речь идёт о науке. Казалось бы, решение проблемы доступа к научной информации, обмен опытом, новые обучающие технологии - всё это должно внести ощутимый вклад в работу учёных. Однако, на практике, результат оказывается намного скромнее и тому имеется ряд причин как объективного, так и субъективного характера.
       Далее будем рассматривать вопросы на примере математических дисциплин, но аналогично обстоят дела с химией или физикой.

  • Что может дать Интернет.

       Интернет справедливо принято рассматривать как вместительное хранилище, своеобразную библиотеку. Действительно, электронные данные сравнительно легко распространять, копировать, хранить, находить и обрабатывать. В этой связи было бы довольно разумно ожидать, что сеть станет своего рода базой знаний.
       С другой стороны, сеть - это оперативность. Широко известны и используются эхо-конференции и электронная почта, однако, список сервисов вполне можно было бы расширить путём добавления научных телеконференций, семинаров, учебников, оперативных данных. В российском секторе Сети сейчас уже начался процесс наполнения образовательными технологиями.
       В своё время, создание издательской системы TeX и других программ для допечатной обработки текста сильно упростило процесс издания научных работ. Экстраполируя принцип повышения доступности информации за счёт снижения стоимости этапов её распространения и обработки, логично предположить, что в сети возможно дальнейшее движение на пути сокращения стоимости публикаций за счёт безбумажных технологий, в том числе, безбумажной редактуры.
       Для начала была поставлена задача создания научного сайта - базы данных - воплощающего идею доступности информации и ориентированного на широкую аудиторию. В процессе его разработки возникали различные вопросы, на которых хотелось бы остановиться подробнее.

  • Проблема математического журнала в Интернет

       Итак, мы создаём ресурс с условным названием "Математический журнал в Интернет". Какие проблемы возникают при этом?

    • Проблема форматов

       Определяющую роль при создании научного журнала в Интернет играет выбор форматов распространения и внутреннего представления работ. В настоящее время существует целый ряд форматов, претендующих на роль "носителя" научной информации, но, по тем или иным причинам, довольно сложно отдать однозначное предпочтение тому или иному из них. Выбор формата определяет не только и не столько размер распространяемых файлов и удобство в работе с ними, здесь речь идёт о возможности (или напротив, невозможности) проводить индерсирование, а значит и поиск. Помимо прочего, от того, какой именно формат принят для распространения журнала зависит общая стоимость его распространения и изготовления. В качесве примера одна из работ по форматам для математических публикаций доступна по адресу http://hash.dorms.spbu.ru/mathmag/other/mml.
       Опыт компьютерной индустрии в целом на примере так называемых IBM-совместимых компьютеров показывает, что реальные шансы на выживание имеют те технологии, которые требуют наименьших усилий по переучиванию для работы с ними. В издательствах, специализирующихся на публикации научной литературы довольно прочные позиции занимает издательская система TeX. Её использование позволяет дёшево получать текст отличного качества. Кроме того, набрать текст в этом формате и произвести допечатную подготовку довольно просто, это под силу не только специалисту, но и большинству авторов, обладающему навыками работы с компьютером. Таким образом, выбирая формат, следует сохранять своего рода "совместимость" в технологиях публикаций.
       Обращая внимание на набор используемых при публикации форматов данных, можно выделить две основные руководящие тенденции: стремление подавать информацию традиционными (привычными читателю) способами и стремление внедрить все существующие преимущества электронных изданий, такие как удобный поиск. Эти тенденции не являются взаимоисключающими, так форматы pdf и djvu имеют постраничную вёрстку и, в то же время, предусматривают возможность поиска внутри документа (другое дело, что в русскоязычных текстах обычно искать нельзя, поскольку создание файла с возможностью поиска требует специальных дорогостоящих лицензий на программное обеспечение или вообще не поддерживается поизводителем программного обеспечения).
       Крайне радикальным проектом с точки зрения возможностей поиска является разрабатываемый в настоящее время формат MathML. Консорциум W3C пытается разработать язык для размещения научной информации в сети с нуля, не учитывая привычек авторов и издателей. Проблема переучивания, конечно, может быть снята, если возможен перекодировщик из одного формата в другой, и такой перекодировщик действительно существует. Достаточно просто взглянуть на пример перекодировки конвертором TtM,

чтобы усомниться в возможности качественного преобразования. Конечно, в специально разработанном под MathML браузере Amaya приведённый пример будет выглядеть лучше. Но нельзя забывать, что вёрстка на стороне клиента всегда будет зависеть от установленного на конкретной машине браузера, а характер сектора браузеров таков, что зачастую приводит к необходимости приспосабливаться под различные их версии. Всё это способно сделать процесс вёрстки ещё более трудоёмким, чем тот, что применяется в системе TeX. Заострим внимание на том, что ещё в 1997 году в статье П.А.Богомякова, А.М.Федотова, Ю.И.Шокина "Электронные журналы по математике" авторы довольно точно подмечают: "...World Wide Web Consortium не оставил надежд разработать стандарт (Mathematical Markup Language - MathML) представления гипертекстовых документов с математическими формулами", прошло четыре года, срок немалый для Интернет-индустрии, а W3C всё ещё "не оставляет надежд".
       Радикализм иного рода напарывается на те же грабли. Разработанный IBM модуль texplorer, к сожалению, реализует лишь подмножество TeX, по-видимуму, из-за вышеупомянутых проблем с вёрсткой текста на стороне клиента. Ведь и TeX не всегда справляется с этой задачей достаточно быстро. Кроме того, texplorer плохо приспособлен к русскоязычным текстам, по крайней мере, первые его версии. Слабая совместимость различных версий самой издательской системы TeX пресекает перспективу распространения математических документов в форматах tex и dvi и наводит на мысль о необходимости использования форматов, внешний вид которых, как и внешний вид бумажных страниц, задан раз и навсегда.
       На нашем сайте, несмотря на все преимущества, решено было не применять форматы, реализующие радикальные подходы. Для распространения файлов мы выбрали формат djvu, активно продвигаемый в настоящее время корпорацией AT&T через подразделение LizardTech. Этот формат уже известен в России благодаря работе Игумнова и некоторым другим, поэтому, опуская подробное описание, перейдём к разбору его достоинств в сравнении с другими форматами, уже получившими довольно широкое распространение и менее известными.
       Главным преимуществом djvu, безусловно, следует считать небольшой размер файлов, выгодно отличающий данный формат от pdf, gif, jpeg, png. Несмотря на то что данные распространяются в виде изображений, размер файла сравним и даже может быть меньше, чем размер идентичного файла в формате tex. Кроме того, формат организует данные таким образом, что по запросу пользователь может получить как документ полностью, так и любую из его страниц по-отдельности, что значительно экономит траффик. Хотя файлам в формате djvu приписывается некое разрешение, эти файлы неплохо масштабируются. Никаких противоречий при этом не возникает, поскольку djvu - не чисто растровый формат, а приписываемое разрешение является виртуальным.
       Программы отображения электронных документов имеют одно общее неудобное свойство - обычно они отображают на экране компьютера только одну страницу. Данное ограничение представляется вполне естественным, учитывая размеры и стоимость мониторов, но опыт показывает, что со временем дисплеи дешевеют. Если в 1995 году пятнадцатидюймовый монитор стоил около 250 долларов США, то в 2000-ном он стоит 150 долларов, а за прежнюю сумму можно позволить себе покупку семнадцатидюймового. Для математиков возможность видеть разворот или две независимые страницы одновременно имеет большое значение, поэтому имеет смысл предоставлять пользователю возможность открытия второй страницы, особенно если его дисплей позволяет выводить их без наложения друг на друга. Plugin от LizardTech устроен таким образом, что эту функцию легко реализовать средствами HTML и JavaScript.
       Одним из основных аргументов в пользу выбора формата djvu для представления специализированной информации в сети является бесплатно распространяемая программа Djvu Solo от LizardTech. С её помощью можно не только получать многостраничные документы, но и наладить работу автора с редактором. Программа позволяет "подсвечивать" различные области статьи и снабжать эти области длинными скрытыми комментариями; таким образом, редактор может практически с той же лёгкостью, что и карандашом, осуществлять редактуру и, в то же время, не имеет возможности вмешиваться в авторский текст. Но самое главное - процесс редактуры проходит без использования бумаги, а значит значительно сокращаются расходы. Программа не русифицирована, но прекрасно справляется с комментариями на русском языке.
       Важным свойством формата djvu является встроенная поддержка внутрених и внешних гиперссылок. Немаловажно также, что plugin для просмотра djvu распространяется в различных вариантах под различные браузеры и операционные системы.

    • Проблема продвижения

Проблема форматов неразрывно связана с проблемой доступности. Бытует такое мнение:

Искать математическую информацию в сети - бесполезное занятие. Недавно я пытался найти одну формулу, потратил два часа, но так ничего и не нашёл. Быстрее было вывести самому.

Попробуем разобраться, отчего это происходит. Для этого нам понадобится немного углубиться в структуру существующей в настоящий момент сети.
      Интернет представляет собой довольно разнородную среду. Большая чаcть её открытых ресурсов доступна в виде HTML по потоколу http. Эти ресурсы и составляют "базу знаний" большинства поисковых машин. Их легко индексировать, а значит, пользователи могут находить размещённую информацию.
      Другие сетевые ресурсы, такие как новостные конференции редко охватываются поисковыми машинами, виной этому отсутствие неизменного адреса, однозначно определяющего для любого пользователя Интернет данное сообщение и данную телеконференцию. Заметим, что популярность поисковой машины Google во многом опирается именно на возможность поиска информации, размещённой на news-серверах.
      Вернёмся к математической информации. Разрабатываемый специально для представления в Интернет математики язык MathML в силу определённых причин не получил широкого распространения. Представляя математические работы в сети чаще всего используют формат pdf от Adobe, впрочем, пользуются также изображениями gif, djvu и специальными средствами типа TeXplorer от IBM. Все эти форматы не индексируются поисковыми машинами.
      Складывается парадоксальная ситуация, когда для того, чтобы математические публикации были проиндексированы, владельцы сайтов идут на всевозможные ухищрения, а поисковые машины борются с этими ухищрениями, поскольку пытаются избавиться от накрутки показателей посещаемости и СПАМа.
      Проблема индексации документов, распространяемых в графическом формате, конечно же, имеет решение. Очевидно, статьи могут индексироваться до перевода в формат djvu либо автором либо в редакции. Индекс каждого документа должен иметь фиксированный адрес на сайте, тогда поисковые машины смогут обнаружить страницу с ключевыми словами, на которой должна присутствовать кнопка открытия документа. Составленный индекс позволяет также решить проблему локального поиска по сайту, но следует понимать, что пользователи сети обычно стараются употреблять "сеть в целом", предпочитая её отдельным ресурсам, поэтому неразумно ограничиваться лишь возможностью поиска по сайту, пренебрегая индексированием контента полнотекстовыми поисковыми роботами.
      Некоторые элементы математических работ, такие как формулы, к сожалению, при индексировании приходится пропускать, даже если бы удалось придумать разумную систему поиска этих элементов по сайту, всё равно поисковые машины, работающие в сети не приспособлены к такого рода информации, а сама задача поиска в формулах, вообще говоря, требует интеллектуального подхода. Таким образом, для индексирования работ требуется иметь посредника в виде программы, выделяющей "чистый текст" из исходных файлов, написанных на TeX.
      Часть пользователей сети имеют доступ лишь к ресурсам электронной почты, для таких пользователей целесообразно производить рассылку новых поступлений. Подводя итог, заключаем, что для популяризации научной информации крайне необходимо изучать Сеть, её основные "магистрали" и способы продвижения ресурсов в ней.

    • Проблема доверия

Довольно многогранный вопрос, возникающий при работе в Сети - это проблема доверия.
      С одной стороны, журнал, публикующий в сети научную информацию обречён нести чисто ознакомительную функцию, поскольку ссылаться на работы в сети можно лишь с целью оперативного ознакомления читателей со сданными в печать работами. Довольно простая процедура регистрации сайтов как СМИ, к сожалению, не означает, что публикация на сайте может быть засчитана, например, при защите диссертации. И дело не столько в отсутствии правил для библиографических ссылок на электронные документы, сколько в необходимости рецензирования работ, сетевой журнал должен иметь статус официального органа публикаций авторитетного в своей области института, лаборатории, кафедры или существующего бумажного журнала. Другими словами, сеть позволяет легко и дёшево публиковать как достоверные так и далёкие от истины данные.
      В рамках самой Сети проблема доверия встаёт в ином ракурсе. Кроме того, что читатель должен отдавать себе отчёт в том, насколько надёжным источником информации он пользуется, устанавливая plugin из Интернет, приходится задумываться также о безопастности компьютера. Правда, последние версии некоторых браузеров поставляются уже в комплекте с различными модулями, в том числе с программой для просмотра djvu.
      С точки зрения авторов, чьи электронные адреса открыто публикуются на web-страницах для контакта с читателем, желательно было бы избежать возможности занесения адреса в базы для рассылки спама. Публикация e-mail адресов зачастую приводит к тому, что специальные роботы, работая по принципу поисковых краулеров, собирают базы рассылки для последующей рекламы по электронной почте, поэтому явной публикации электронных адресов следует избегать.

  • Первые результаты

      Создавая "Математический журнал в Интернет", мы преследовали цель построить удобный интерфейс для работы читателя, автора и редактора. К сожалению, эта работа ещё далека от завершения по той простой причине, что сайт является, в основном, результатом деятельности одного человека в свободное от работы время. Тем не менее, по ряду вопросов удалось достигнуть некоторых результатов.
      Для получения файлов в формате djvu была выбрана следующая схема:


Несложно заметить, что утилита dvidot используется для своего рода "сканирования" документа в формате .dvi. Формат djvu устроен таким образом, что с ним довольно сложно проводить операцию crop (обрезание), поэтому требуется дополнительный этап монтажа, на этом этапе приходится также проводить преобразование формата .pcx в .ppm, поскольку программа DjvuSolo, применяемая для получения файлов djvu, в экспериментах согласилась работать правильно на IBM PC именно с этим форматом. Вероятно, это связано с ограничениями бесплатно распространяемой версии. Для оценки ресурсоёмкости процесса преобразования полезно привести данные по размерам файлов:
страниц*.tex*.dvi*.pcx*.ppm*.djvu
1 249 962 170 1 340 356 11 924 571 458 512 335 380 256
2 476 744 198 1 455 692 25 674 197 752 563 140 968 501
3 47 81 169 189 052 2 476 359 86 546 505 103 448
4 118 167 662 417 816 5 628 696 186 559 770 193 562

Из таблицы видно, что хранение промежуточных результатов преобразования требует значительных ресурсов, кроме того, DjVuSolo не работает из командной строки, то есть, требует ручной работы.
      Многих ограничений удалось бы избежать, применяя программные продукты, распространяемые на лицензионной основе. Пользуясь этими программами можно было бы существенно сократить объём необходимых ресурсов и время изготовления, а - при разработке специальных стилей для публикаций - избавиться от необходимости участия человека в процессе конвертации. LizardTech предоставляет специальные условия лицензирования для образовательных организаций, отличающиеся пониженной стоимостью. Мне удалось даже разыскать фирму, занимающуюся распространением программных продуктов LizardTech в России.
      При изготовлении файлов в настоящий момент используется виртуальное разрешение 100 dpi, поэтому качество текста не идеально, особенно при печати на принтере, повысить его можно и не увеличивая разрешения, за счёт разработки и использования гарнитур, приспособленных под методы сжатия, применяющиеся для кодирования в .djvu.
      Все работы, размещённые на сайте, индексируются. Для индексирования применяется следующая схема:


Здесь на первом этапе работает программа, отделяющая подлежащий индексированию текст от формул и другой неиндексируемой информации. Задача поиска по формулам не решается вследствие её достаточной трудоёмкости и недостаточного спроса. Скрипт написан на perl и протестирован, в частности, на свободно распространяемом в электронном виде тексте С. М. Львовского "LaTeX: подробное описание".
      Второй этап - составление индекса. В последнее время участились сообщения о том, что различные корпорации заявляют о наличии у них патентов на технологии индексирования текстовой информации, поэтому мы решили создать систему индексирования "с нуля", стараясь учесть особенности публикации научной информации на русском языке. Индекс проектировался для решения следующих задач:

  • доступнось содержимого работ для полнотекстовых поисковых машин,
  • возможность осуществления поиска по сайту.

Для поиска по сайту требуется определять релевантность документов относительно поискового запроса, поэтому индекс было решено устроить так: текст при помощи некоторого алгоритма, опирающегося на набор стоп-слов и правил русской грамматики, разбивается на "понятия" (короткие фразы без неинформативных слов), далее в индекс включаются все такие фразы, а также все их "подфразы" вплоть до слов. Далее словам приписывается "вес" в соответствии с частотой встреч, потом, исходя из полученных значений для слов, вычисляются длины векторов, составленных из "весов" слов, входящих во фразы, и эти значения считаются "весами" соответствующих фраз. Это сделано для того, чтобы "вес" каждой фразы был больше "веса" отдельных её слов. Полученные пары добавляются в общую индексную таблицу, хранящую помимо "понятий" и "весов" ещё уникальный идентификатор документа. Всему документу также можно приписать "вес", равный длине вектора, составленного из весов всех фраз его индекса.
      Таким образом, при поиске по сайту требуется для всех "подфраз" запроса и их синтаксических эквивалентов запросить веса и содержащие документы, затем, вычислить на основе полученных данных релевантность каждого документа и вывести результаты поиска в нужном порядке. Сложность выполнения такого запроса зависит от самого запроса, но не от размера базы данных.
      Для того, чтобы сделать индексы доступными поисковым машинам, требуется разместить имеющийся индекс на сервере по неизменному адресу. В верху страницы можно поставить ссылку, которая позволит читателям, пришедшим с поисковой машины, перейти к соответствующей статье. С одной стороны, предложенная методика кажется некоторым ухищрением, с другой, в условиях отсутствия удовлетворительного индексируемого формата данных ничего другого не остаётся, разве что, сказать спасибо Яндекс за понимание.
      Имеющаяся технология индексирования, наверняка, заинтересует сетевые издательства, поскольку авторы отдадут предпочтение тем журналам, которые заботятся о том, чтобы публикуемые работы были доступны любому пользователю Интернет.
      Открытым остаётся вопрос об уточнении результатов поиска с точностью до конкретного номера страницы в конкретном документе. Для решения этой задачи следует переписать имеющийся скрипт с языка perl на tex, то есть, создать стиль, который будет решать одновременно и задачу отделения текста от формул и задачу составления индекса, поскольку разбиение на страницы производится именно на этапе компилляции файлов tex'ом. Конечно, математические материалы зачастую приходится читать с начала, но, тем не менее, крайне удобно пользоваться поиском в текущем документе, а поиск, встроенный в plugin не работает из-за ограничений, налагаемых на бесплатно распространяемую программу DjVuSolo.
      На первый взгляд может показаться, что дублирование в индексе "подфраз" должно сказываться на его размере, однако, благодаря исключению незначимых слов, индекс представляет собой своеобразный "экстракт смысла", и даже имея повторяющиеся слова, по размеру он меньше исходного документа на tex:
исходный размерразмер индекса
1962 17086 482
2744 198359 741
381 16946 016
4167 66281 451
      Мы искали способы быть максимально полезным для своей аудитории сайтом. Этот поиск привёл к широко используемым в настоящее время целевой аудиторией эхо-конференциям fido. С разрешений модераторов конференций fido7.ru.math, fido7.ru.tex и fido7.su.science на сайте "Математический журнал в Интернет" открыты зеркала этих конференций, таким образом, они доступны для внешнего и внутреннего индексирования и поиска.
      Наш ресурс существует в Интернет с ноября 2000 года. Кроме работ и конференций, на сайте присутствует рассылка новостей сайта для подписчиков Subscribe.Ru, кольцо русскоязычных математических ресурсов на Yahoo, мы успешно обмениваемся ссылками с разнообразными ресурсами по тематике, работаем над повышением доступности размещённых работ для широкой аудитории Рунет.
      В марте 2001 года среднее число посетителей сайта за день по данным SpyLog составило 50. Более 60% заходов было обеспечено внешними ссылками, в том числе из каталогов и рейтингов, около 15% - индексы и рефераты работ, 20% - зеркала конференций, и порядка 5% составили пользователи, которые, получая рассылку, имеют возможность пользоваться ресурсами www. Доля внешних ссылок по мере индексирования контента Яндексом уменьшается, уступая позиции эхо-конференциям и работам. Рассылку, по данным Subscribe.Ru, получает около 1600 подписчиков.

  • Заключение

      В завершение, хотелось бы поблагодарить внимательную аудиторию. Мы готовы и будем рады любому сотрудничеству.