«Наука в Сибири»
№ 41 (2427)
24 октября 2003 г.

GRID — ПЕРСПЕКТИВЫ ИЛИ РЕАЛЬНОСТЬ?

Распределенные информационно-вычислительные ресурсы СО РАН.

Ю.Шокин, А.Федотов
Институт вычислительных технологий СО РАН

Иллюстрация
Иллюстрация

Широкое использование современных средств доступа к информационно-вычислительным ресурсам открыло принципиально иные возможности использования информационных технологий и вычислительной техники. Современные информационные технологии, позволяющие создавать, хранить, перерабатывать и обеспечивать эффективные способы представления информационных ресурсов потребителю, стали важным фактором жизни общества и средством повышения эффективности управления всеми сферами общественной деятельности. Уровень использования информации становится одним из существенных факторов успешного экономического развития и конкурентоспособности региона как на внутреннем, так и на внешнем рынке. Информация является важнейшим стратегическим ресурсом и наибольший экономический и социальный успех сегодня сопутствует тем странам, которые активно используют современные средства компьютерных коммуникаций и сетей, информационных технологий и систем управления информационными ресурсами. Перенесенные на электронные носители информационные ресурсы приобретают качественно новое состояние и становятся активными. Доступная для оперативного воспроизводства средствами компьютерной обработки информация является важнейшим фактором социального развития общества.

Иллюстрация

Стремительное развитие глобальных информационных и вычислительных сетей привело к изменению фундаментальной парадигмы обработки данных, направление которой переместилось на использование распределенных информационно-вычислительных ресурсов и поддержку инфраструктуры для свободного доступа к ним. С одной стороны наблюдается переход к исключительно распределенной схеме создания, поддержания и хранения ресурсов, а с другой — стремление к виртуальному единству посредством предоставления свободного доступа к любым ресурсам сети через ограниченной число «точек доступа». Таким образом, в современном информационном обществе на первое место выходят технологии использования распределенных информационно-вычислительных ресурсов. В западной литературе несколько лет назад появился даже новый термин «GRID-технологии» — технологии создания и использования распределенных информационно-вычислительных ресурсов.

На самом деле идея использования распределенных ресурсов далеко не нова. Она была сформулирована еще на заре компьютерной эры — здесь можно вспомнить Вэннивера Буша1, который в своей книге «As We May Think» (1945) описал концепцию гипертекста. В дальнейшем идея распределенной обработки информации стала активно развиваться с появлением первых «супер» ЭВМ второго поколения — это советская ЭВМ БЭСМ-6 и американская ILLIAC-IV. Именно на этих машинах впервые были поставлены эксперименты и создано соответствующее программное обеспечение по использованию распределенных вычислительных ресурсов. В дальнейшем технология массированного счета была перенесена и на «mainframe» третьего поколения2. Недаром одним из лозунгов создателей технологий GRID является следующий: «Forward-Back to Mainframe» («Вперед (назад) к майнфраймам»).

Второй этап развития технологий использования распределенных ресурсов можно связать с появлением сети Интернет. В 1989 году в CERN’e перед сотрудниками лаборатории ECP (Electronics & Computing for Physics) была поставлена задача разработать систему для обеспечения (и унификации) доступа к любым данным, содержащимся в сети, и объединения всех, имеющиеся в ней источники информации, для сотрудников, приезжающих из различных уголком мира — создать универсальную технологию доступа к распределенной, разнородной информации. Таким образом, был создан WWW сервис сети Интернет3. Дальнейшее развитие технологии WWW немного подкорректировало начальные установки и из системы доступа к разнородным ресурсам он превратилась во всемирную «презентационную» систему.

Развитие концепций предоставления удобного и разветвленного доступа к информационно-вычислительным ресурсам, распределенным по сети Интернет, привело к созданию соответствующих протоколов и стандартов определяющих основные механизмы информационного обмена (протоколы и стандарты OSI4) — для унификации описания структуры информации и порядка обмена информацией между пользователями информационной системы и ее ядром через сети передачи данных. При этом сами системы могут управлять данными, используя разные модели и различные языки манипулирования этими данными.

Идея совместного использования информационно-вычислительных ресурсов была поддержана большим количеством фирм-производителей программного обеспечения. На сегодняшний день для разработки распределенных информационных систем было предложно большое количество различных технологий (например, RPC, DCOM, RMI, ODBC, JDBC, CORBA, SOAP, ebXML, WSDL, WSFL, UDDI и др.). Однако большая часть этих технологий по своей сути ориентирована не на работу с информационными ресурсами, а на сетевое взаимодействие программ и распределенные вычисления в гетерогенных средах.

В основе протоколов семейства OSI находится поддержка метаданных — формализованных знаниях о внутренней структуре и поведении информационных и вычислительных ресурсов (или документов): метаданные содержат структурированные сведения о ресурсе, представляющие его свойства (атрибуты) и функции — информации, предназначенной для анализа, дизайна, развития, обработки и использования Документов5. Понятие метаданных уже давно и успешно используют в таких контекстах, как информационные хранилища и системы аналитической обработки данных, электронный документооборот и управление потоками работ, управление знаниями. Этот стандарт позволяет описывать классы объектов, представляющие типы информационных документов, атрибуты и отношения между различными типами документов и ресурсов. В моделях распределенных вычислений метаданные являются основным структурным и функциональным описанием ресурса, использование которого и обеспечивает унифицированный доступ.

Приведенные выше идеи создания единой системы доступа к информационно-вычислительным ресурсам, у нас в Сибирском отделении сразу легли на подготовленную почву. Не смотря на некоторое затишье, вызванное годами перестройки, уже в середине девяностых годах в СО РАН стартовали ряд проектов по созданию и поддержке распределенных информационно-вычислительных ресурсов. В качестве первых из них следует упомянуть «Электронный атлас биоразнообразия животного и растительного мира Сибири» и «Распределенной каталог библиотек Сибири». В качестве одного из важнейших результатов этих работ стала разработка и реализация проекта создания «Электронной библиотеки Сибирского отделения РАН», который объединил сотрудников большого числа институтов СО РАН (ИВТ, ОИГГМ, ЦСБС, ИЦГ, ИК, ИЭОПП, ИВМ, ИДСТУ, ИОА, ГПНТБ и др.

Дальнейшее развитие работ по созданию «Электронной библиотеки Сибирского отделения РАН» провело к необходимости виртуальной интеграции создаваемых ресурсов в единую унифицированную систему: большая часть компонентов этой системы находится в разных местах и при выполнении иных задач может функционировать независимо, интероперабельность (унифицированность) достигается использованием согласованного набора стандартов (в том числе корпоративных), протоколов и сервисов, а виртуальное единство обеспечивается, за счет единого интерфейса и стандартизации структуры на основе единой схемы метаданных. На основе этих концепций был разработан проект создания «Интегрированной Распределенной Информационно-Вычислительной Системы» (ИРИВС) СО РАН6.

Основная концепция технологии GRID7 — это объединение всех ресурсов сети Интернет в единую интегрированную среду распределенных ресурсов, которая составит информационно-вычислительную инфраструктуру будущего. GRID можно определить как исходно распределенную систему, которая сводит воедино данные, вычислительные мощности и ресурсы для представления данных. Единый интерфейс должен предоставлять доступ ко всем необходимым ресурсам так, словно мы имеем дело с одним огромным «метакомпьютером». Все задачи, как традиционные для обычных компьютеров (управление процессами, памятью, файловой системой, вводом/выводом и пр.), так и принципиально новые/старые (учет, контроль, способ доступа и распределение ресурсов, обеспечение безопасности, совместная работа над набором данных в реальном масштабе времени и пр.) должен решать специализированный комплекс программного обеспечения на базе соответствующей аппаратной инфраструктуры.

Создание интегрированной распределенной информационно-вычислительной сети опирается на идею электронных (цифровых) библиотек. Основная задача — это формирование в ресурсах «Сети» единого, математически однородного поля компьютерной информации, способного стать универсальным и машинонезависимым носителем данных, программ и глобально распределённых вычислительных ресурсов. В рамках этого подхода цифровые библиотеки рассматриваются как отдельная конкретная технология работы с информацией. Помимо задач модификации первичных ресурсов организаций и институтов в направлении их частичного открытия внешним пользователям, стоит проблема разработки принципов организации ресурсов внутреннего пользования и самих метаданных для их эффективного использования8.

Создание единой технологической системы хранения, поиска и использования информации является одной из важнейших задач интеграции научных исследований, проводимых различными группами исследователей.

Единая интегрированная система распределенных ресурсов СО РАН основывается на организации и взаимодействии соответствующих служб: публикации/регистрации новых наборов данных, поддержка и их аутентичности и качества; обнаружения информации; доступа к гетерогенным ресурсам посредством брокера ресурсов; контроля аутентификации и доступа; мониторинга информационных ресурсов и ресурсов ввода/вывода; анализа распределенных данных и распределенного исполнения служб.

Эти механизмы составляют основу системы «усвоения данных (документов)» — системы превращения информации в систему библиотек, оперирующих с «документами». Сама по себе информация, хранящаяся в репозиториях (архивах) является только лишь набором битов, комбинацией данных и метаданных, выполненных с использованием адекватного языка описания или разметки. Как именно конкретный пользователь (приложение) будет использовать эту информацию, определяется пользователем в соответствии с метаописанием. Создаваемые технологии должны предоставлять возможности для точного и адекватного удовлетворения потребностей пользователей, формально обращающихся к одной и той же информации или к ресурсу.

Использование распределенных информационно-вычислительных ресурсов становятся магистральным направлением развития современной компьютерной индустрии. На смену отдельно стоящим, независимым компьютерам и суперкомпьютерам должны прийти группы высокопроизводительных серверов, объединенных либо в кластеры, либо в виртуальные системы управления вычислительными ресурсами. Развитие сетевых технологий в настоящий момент сделало возможным объедение распределенных по сети компьютеров в мощный территориально распределенный «суперкомпьютер».

Часто вычисления с использованием больших объемов данных выделяются в отдельную категорию. К общим характеристикам потребностей, которые делают оправданной организацию вычислительных архитектур типа GRID, можно отнести следующие: большие объемы данных, распределенных по различным научным центрам, странам и континентам; участие большого количества специалистов в обработке данных из разных институтов и университетов; информация, которую следует проанализировать, имеет сложную структуру; алгоритмы обработки информации имеют нетривиальный характер (объем программ составляет миллионы строк текста); наконец, масштабируемость базового программного обеспечения (фактически, всего того, что лежит ниже прикладного уровня), которое должно устойчиво работать как на настольной машине, так и на суперкомпьютере.

Следует также обратить внимание на то, что мощные вычислительные установки не могут функционировать сами по себе без квалифицированного персонала, имеющего практический опыт организации крупномасштабных вычислений. Ведь при работе на удаленном вычислителе потребитель пользуется также результатами труда персонала, который сопровождает данный вычислитель. Зачастую это обстоятельство оказывается таким же важным, как и наличие доступа к мощным вычислительным ресурсам — подготовка новых специалистов и создание продуктивного коллектива для нового суперкомпьютерного центра обойдется дороже любых суперкомпьютеров. Таким образом, создание средств для объединения вычислительных мощностей одновременно ведет и к появлению средств для объединения, через национальные границы и административные барьеры, усилий людей.

При создании распределенной вычислительной среды в ИРИВС СО РАН мы базируется на проекте DataGrid9, целью которого является: интеграция информационных и вычислительных ресурсов и создание распределенной системы доступа к ним в рамках (система MetaDataGrid); разработка уникальной системы доступа к международным банкам данных, моделей и программ анализа данных (в том числе и в области «биологической информатики»).

В рамках проекта реализуется «система распределенного управления ресурсами», предназначенная для консолидации распределенных ресурсов при выполнении какой-либо задачи путем формирования среды из временно простаивающих рабочих станций, суперкомпьютеров, серверов и персональных компьютеров, которая предназначена для решения следующих задач: — Оптимальное распределение частей работы по вычислительным системам различной архитектуры и различной мощности. — Однородный доступ к вычислительным ресурсам большого числа компьютеров в локальной или глобальной сети. — Управление структурой вычислительной среды, которая может не иметь постоянной конфигурации — отдельные компоненты могут включаться в конфигурацию или отключаться от нее; при этом система обеспечивает непрерывное функционирование вычислительной среды в целом.

В целом ИРИВС СО РАН обеспечит: интероперабельность баз данных (информационных хранилищ) и стандартизацию хранилища данных — интеграция БД; извлечение данных — построение знаний — интеллектуальные агенты; Доступ к библиотекам алгоритмов для обработки данных и организация систем моделирования; настройка данных на алгоритмы или алгоритмов на данные; распределение задач по различным порталам (распределенная обработка данных); мультипроцессорную обработку ресурсов и данных.

В основе реализации ИРИВС лежит метамодель, исходящая из того, что документ (информационный ресурс: документ, алгоритм, программа, файл или вычислительный ресурс) характеризуется набором присущих ему атрибутов и методов, характеризующих связи с другими документами. По информации сервера метаданных осуществляется динамическая генерация схем базы данных системы и ведение программного служебных баз данных, в которых хранятся данные, обеспечивающие поддержку стандартных функций системы, динамически определяемые отношения между документами и динамическое распределение ресурсов системы.

В настоящее время в ИРИВС выделятся следующие типы ресурсов — ДОКУМЕНТОВ:

каталоги информационных ресурсов, информация об информационных ресурсах и метаинформация;

электронные коллекции;

классификационные ресурсы;

вычислительные ресурсы и ресурсы обработки данных;

хранилища программного обеспечения;

административные информационные ресурсы, включающие полную информацию об актуальном состоянии системы и ее отдельных компонент.

Реализация распределенной информационной системы позволит перейти к построению интеллектуальной системы обработки запросов главную роль в которой играет программное обеспечение, реализующее функцию управления моделями данных и метаданных (диспетчера). Разработанная динамическая система формирования электронных коллекций предоставляет возможности для точного и адекватного удовлетворения потребностей пользователей, формально обращающихся к одной и той же информации (цифровому объекту в репозитории). Эта методология уже была использована при создании «Электронного атласа биоразнообразия животного и растительного мира Сибири» и информационной системы WWW сервера СО РАН.

В настоящий момент на основе полнофункциональной интегрированной системы доступа и управления информационно-вычислительными ресурсами СО РАН выполняется целый ряд интеграционных проектов СО РАН, в том числе «Методы, технологии и инструментальные средства создания вычислительной инфрастуктуры в Internet», «Развитие информационных и телекоммуникационных средств и технологий мониторинга природной среды на основе данных спутников нового поколения», «Виртуальный музей науки и техники СО РАН», «Разработка информационной геодинамической модели строения Кузнецкого угольного бассейна для целей прогнозирования катастрофических природных и техногенных явлений», «Биоразнообразие и динамика экосистем: информационные технологии и моделирование», и проектов сотрудничества с Президиумом и отделениями РАН: «Описание и анализ биоразнообразия динамики экосистем Сибири с использованием информационных технологий», «Организация распределенных вычислений и доступа к информационным ресурсам сети интернет СО РАН», «Математические и алгоритмические проблемы информационных систем нового поколения». Использование сервисов и ресурсов ИРИВС СО РАН является принципиальным для реализации перечисленных выше проектов как с точки зрения решения поставленных в них научных задач, так и с точки зрения интеграции работ между организациями, находящихся в разных научных центрах СО РАН.


1 Вэннивер Буш (Vannevar Bush) (1890-1974) — основатель Национального Научного Фонда (NSF) США, создатель «дифференциального анализатора» (1930) — релейной машины, способной решать дифференциальные уравнения, руководитель работ по созданию первых ЭВМ.

2 Следует отметить, Россия (тогда СССР) в то время была страной наиболее мощного класса вычислительных систем — mainframe. За все время производства советских компьютеров типа ЕС ЭВМ, являющихся клоном системы IBM 360/370, на предприятия и в организации Советского Союза было поставлено около пятнадцати тысяч таких машин. Причем причиной их массового использования было не только и не столько отсутствие производства и закупок персональных компьютеров и UNIX или Wintel серверов, а необходимость решения вычислительных задач «глобального» характера и массового производственного счета. Даже при наличии последних — задачи, которые предполагалось решать с помощью вычислительной техники в СССР, были неподъемны для других платформ.

3 WWW — технология «World Wide Web» («Всемирная паутина»).

4 OSI — Open System Interconnection — Взаимодействие Открытых Систем.

5 Под понятием Документ в контексте этой статьи мы понимаем следующее: В информационном пространстве события, факты и любые другие сущности реального или виртуального мира существуют только в форме Документов. Вследствие этого Документ является основным «объектом», с которым оперирует любая информационная система. Таким образом, Документ это любое описание реальной сущности (объекта, факта или понятия, включая алгоритмы и программы), которые составляют информационное наполнение системы.

6 Шокин Ю.И., Федотов А. М., Жижимов О. Л., Мазов Н. А. Интегрированная распределенная информационно-вычислительная система (ИРИВС) Сибирского отделения РАН // В сб.: Выездное заседание научно-координационного совета по целевой программе «Информационно-телекоммуникационные ресурсы СО РАН», Иркутск, 29-30 августа 2002, ИДСТУ СО РАН, 2003.

7 Термин GRID не является аббревиатурой, это английское слово «сеть, решетка», правда некоторые авторы расшифровывают этот термин следующим образом: «Global Resource Internet Distributed».

8 По оценке многих экспертов, уже сейчас Интернет представляет собой мировую «свалку» информации.

9 Проект DataGrid наряду с проектом Globus являются в настоящее время двумя наиболее продвинутыми проектами GRID-технологий. Если проект Globus ориентирован преимущественно на использование простаивающих вычислительных мощностей, то проект DataGrid (или MetaDataGrid) ориентируется на создание унифицированной среды доступа к ресурсам, чем и объясняется наш выбор.

стр. 3