Зибарева И.В.
Центр STN, Новосибирский институт органической химии СО РАН, Новосибирск
На примере STN International – крупнейшей глобальной сети научно-технической информации – охарактеризован текущий этап эволюции онлайновых информационных систем. Подчеркнуты преимущества онлайновых сетей коммерческих баз данных, сочетающих тщательно отобранную и проиндексированную информацию с эффективным командным (поисковым) языком, перед информационными ресурсами, свободно доступными в Internet. Отмечено недавнее объединение традиционных возможностей онлайновых хостов и Web-интерфейса, облегчающее доступ к релевантной информации все большему числу конечных пользователей. Появление во всех платформах возможности заказа полных текстов оригинальных публикаций (Full Text Solution) позволяет пользователям переходить непосредственно от библиографических ссылок к полным текстам документов на Web-сайтах соответствующих издательств. Рассмотрена новая функция онлайновых баз данных – превращение из хранилищ фактов (документов) в мощные аналитические инструменты для извлечения из информации знания.
Известно, что современная наука производит не столько знание, сколько информацию (а научное исследование при этом рассматривается как процесс производства и потребления информации, в котором информация на выходе превышает информацию на входе). Знанием информация становится лишь тогда, когда используется для идентификации и решения проблем. Информация и знания – важнейшие ресурсы стран с высокоразвитой экономикой.
В науке своевременная, всеобъемлющая и легкодоступная информация – необходимая предпосылка успешного проведения новых научных исследований и разработок, в бизнесе – непременное условие конкурентоспособности.
К настоящему времени в мире накоплены огромные объемы научной и деловой информации, в том числе в электронном виде, что порождает серьезные проблемы, связанные с ее эффективным использованием. Последнее, по-видимому, возможно только с помощью онлайновых систем. Появившись на рубеже 70-х – 80-х годов прошлого века, эти системы непрерывно эволюционируют. В последнее время наблюдается интересная интеграция возможностей различных онлайновых информационных систем и "знаковое" изменение их функций – превращение из хранилищ фактов (документов) в мощные аналитические инструменты для извлечения из информации знания. Именно эти процессы кратко рассмотрены в настоящей работе.
Для большинства пользователей термин online ассоциируется прежде всего с Internet и свободно доступными в нем информационными ресурсами, хотя коммерческие провайдеры деловой и научно-технической информации в онлайновом режиме (хосты или вендоры), такие как Dialog, STN International, Questel-Orbit и др. [1], успешно существуют на рынке около 20 лет, постоянно совершенствуясь и, как показано ниже, предлагая более быстрый и эффективный по сравнению с Internet поиск релевантной информации. Глобальная сеть научно-технической информации STN International, управляемая Chemical Abstracts Service (CAS), США, совместно национальными информационными центрами ФРГ (FIZ-Karlsruhe) и Японии (JST) – представительный пример современной коммерческой онлайновой информационной системы.
С использованием единого командного языка STN International предоставляет онлайновый доступ к примерно 210 базам данных (БД), содержащим информацию практически по всем областям науки, техники, технологии, промышленности и бизнеса [2]. Суммарное количество документов в БД STN превышает 250 млн. Наиболее крупные по числу документов (млн.) БД – WORLDCAT (47+), REGISTRY (41+), INPADOC (33+), CAPLUS (21+), SciSearch (20+), GENBANK (16+), BIOSIS (13+), MEDLINE (12+), INVESTEXT (12+), WPINDEX (11+), PROMT (9+), EMBASE (8+), BEILSTEIN (8+), INSPEC (7+), и COMPENDEX (5+). Большинство БД STN представляют собой уникальные информационные источники с глобальным охватом документов. Некоторые представлены только в STN. Состав БД постоянно обновляется и пополняется.
В сети STN представлены БД различного типа, включая библиографические, полнотекстовые, справочные, фактографические, структурно-химические, а также БД, содержащие сведения о продукции и ее производителях, текущих и запланированных исследовательских проектах, и т.п.
Критически важно, что в отличие от захлестывающего Internet хаотически растущего вала персональных "домашних страниц", ориентированных на потребителя служб новостей и пр., содержание БД коммерческих провайдеров, таких как STN, тщательно отбирается, снабжается единым командным (поисковым) языком и подробно индексируется. Последнее значительно увеличивает потребительскую ценность исходных данных и существенно облегчает пользователю поиск релевантной информации. Например, для быстрого и точного поиска химических веществ в библиографические БД STN введены их регистрационные номера CAS либо использованы другие типы химического индексирования и/или разнообразные тезаурусы – иерархические классификаторы, специальные коды и промышленные категории. Наряду с этим сеть STN, как и многие другие коммерческие хосты, предлагает профессионалам специальные инструменты для особых типов поисков (например, по химическим структурам, реакциям, спектрам, и т.п.) и/или манипуляции данными, включая их многоаспектный анализ.
Другое преимущество онлайновых служб – возможность поиска во многих различных источниках без необходимости перехода от одного сайта (провайдера) к другому.
В целом, пользователи коммерческих БД получают более своевременную и полную релевантную информацию, чем это возможно с использованием поисковых машин Internet. Даже заметно улучшенные в последнее время, эти машины, тем не менее, не имеют таких эффективных поисковых функций, как в большинстве онлайновых хостов.
До недавнего времени использование коммерческих онлайновых служб, подобных STN, было ограничено только информационными профессионалами. Поскольку в большинстве онлайновых БД имеется плата за время связи, а специальные поисковые языки достаточно сложны, то для оптимизации соотношения поисковых затрат и результатов было необходимо предварительное обучение пользователей.
В последнее время в ответ на растущие требования конечных пользователей быстро и недорого получать релевантную информацию гарантированного качества в удобной для чтения, понимания и использования форме коммерческие провайдеры выпустили на рынок Web-версии своих онлайновых систем с более удобными для пользователя Web-интерфейсами на основе Windows и новыми структурами оплаты [3]. Вместе с предложением профессионально проиндексированных данных это позволяет все большему числу конечных пользователям проводить намного более точные поиски, чем при использовании Internet.
В настоящее время существуют три возможности для подключения и работы с базами данных STN International в зависимости от выбранной информационно-поисковой системы [4,5]:
1) STN Classic – классическая онлайновая информационно-поисковая система. Подключение и работа с базами данных производится с использованием программы Telnet. Разработанное специально для поиска в базах данных STN International программное обеспечение STN Express обеспечивает существенное повышение эффективности работы в сети.
2) STN on the Web – информационно-поисковая система, предназначенная для пользователей Internet. Для подключения и работы с базами данных используются навигационно-поисковые средства типа Microsoft Internet Explorer или Netscape Navigator. Язык составления поисковых запросов аналогичен поисковому языку, используемому в системе STN Classic.
3) STN Easy – информационно-поисковая система, предназначенная для широкого круга пользователей Internet, не являющихся профессиональными информационными специалистами. Система обеспечивает доступ к более чем 80 важнейшим БД STN International. Подключение и работа с БД производится с помощью программ типа Microsoft Internet Explorer или Netscape Navigator. Для ознакомления с системой STN Easy новым пользователям предоставляется возможность проведения бесплатных тестовых поисков в режиме демонстрационного доступа к некоторым из БД.
В свою очередь, многие крупные издательства научной и патентной литературы реализовали доступ через Web к такой информации как факсимильные репродукции оригинальных печатных публикаций, включающих графику, диаграммы и рисунки, что ранее было невозможно для традиционных онлайновых хостов. Вместе с тем издательства не могут обеспечить ту же глубину информационного охвата, что онлайновые хосты. Понимание ситуации привело к кооперации издательств и онлайновых хостов, включающей объединение информационных ресурсов и поисковых возможностей последних с графически богатым содержанием Web-сайтов издательств. Для пользователей это означает появление единой информационной службы, предоставляющей мощные поисковые возможности и прямой доступ к полным текстам релевантных статей и документов на Web. После того как в БД найдены ссылки на интересующие публикации, можно заказать их полные тексты, используя систему автоматизированной доставки документов в сети Интернет.
В STN проблема получения полнотекстовой документации через Интернет решена с использованием возможностей "STN Full Text Solution" [6]. Для каждой записи приводится гипертекстовая ссылка и предоставляется возможность заказа полного текста через Chemport, или из CAS Document Detective Service (США), или FIZ AutoDoc (Европа). Если оригинальная публикация предлагается издателем в электронной форме, происходит непосредственное подключение к этому сайту. В противном случае система автоматически обратится к соответствующему поставщику документа, который вышлет заказанную публикацию почтой. Многие известные международные библиотеки и издательства уже связаны с этой системой, и их численность, без сомнения, будет постоянно увеличиваться в будущем.
Таким образом, в современной онлайновой системе можно перейти непосредственно от библиографической ссылки к интересующему тексту, просмотреть его на экране или распечатать, включая любые рисунки, графики и таблицы. Этот процесс подобен традиционному просмотру ссылки в библиотечном каталоге с последующим обращением к печатному экземпляру журнала с нужной статьей, только реализованному намного более удобным и экономичным виртуальным способом.
Возросшее значение онлайнового предоставления информации состоит, однако, не только в использовании БД и/или их сетей для розыска конкретных фактов и доступа к конкретным документам. На основе БД возникают новые возможности интерпретации и обобщения данных, т.е. извлечения из потока информации наиболее ценных сведений и получения их анализом и/или синтезом нового знания. Следует отметить, что идентификация значимых, потенциально полезных и полностью понимаемых нетривиальных закономерностей в данных – одна из наиболее актуальных тем в области новых информационных технологий, направленная на выявление неочевидных (скрытых) тенденций в развитии науки, бизнеса и общества в целом. Методы такой идентификации известны как knowledge discovery in data (KDD) или data mining [7].
Важным частным случаем анализа тенденций развития науки является индексирование цитирования, все чаще используемое в мировой практике в качестве объективного количественного критерия при наукометрической оценке (ранжировании) ученых, исследовательских групп (институтов), университетов, регионов и/или стран, потребность в которой вызвана повсеместно растущими бюджетными ограничениями и необходимостью адресной поддержки наиболее перспективных исследований. В этом отношении БД SciSearch, доступная через STN, имеет ряд преимуществ перед своими аналогами, такими как Science Citation Index на компакт-дисках (SCI CDE) и Web of Science. Эти преимущества связанны в основном с возможностями командного языка STN Messenger и доступностью в сети STN многочисленных предметных баз данных, которые можно использовать совместно с БД SciSearch. Платформа SciSearch/STN позволяет проводить поливариантный наукометрический анализ цитирования журнальной литературы, адоптированный к конкретным задачам (индивидуальным потребностям).
Рассмотренные возможности относятся, конечно, не только к научной, но и к деловой информации. Известны примеры, когда анализ сведений, хранящихся в БД, позволял, например, идентифицировать потенциальные новые рынки и оценить их рентабельность, выявить возможных конкурентов и их возможности, определить изменения в технологиях, осознать формирующиеся тенденции, и т.д.
В целом, STN International – удобный универсальный источник критически оцененной и высококачественной научно-технической и патентной информации. Пользователю доступна богатая по содержанию коллекция тщательно отобранных и проиндексированных данных, отраженных в миллионах записей, включающих библиографические ссылки на журнальные статьи, труды конференций, книги, диссертации, и др., числовые данные по разнообразным свойствам веществ и материалов, полные тексты статей и отчетов и пр., собранных производителями БД со всего мира.
Следует отметить, что STN – единственный крупный вендор, проводящий целенаправленную политику помощи пользователям на информационном рынке России. Эта помощь выражается как в предоставлении крупных (70-80%) скидок для академических пользователей, так и в организации бесплатного обучения в специально созданных Центрах (Грант РФФИ № 00-03-32721).
Ваши комментарии Обратная связь |
[Головная страница] [Конференции] [СО РАН] |
© 2002, Сибирское отделение Российской академии наук, Новосибирск
© 2002, Объединенный институт информатики СО РАН, Новосибирск