Конференции ИВТ СО РАН



XI конференция "Распределенные информационно-вычислительные ресурсы" (DICR-2006)

Павлодар, Казахстан, 20 – 22 сентября 2006 года

Тезисы докладов


Удаленный доступ к ресурсам вычислительного кластера

Пересветов В.В., Сапронов А.Ю., Тарасов А.Г., Шаповалов Т.С.

ВЦ ДВО РАН (Хабаровск)

В докладе представлено описание работы вычислительного кластера ВЦ ДВО РАН в режиме коллективного доступа. Вычислительный кластер создан в ВЦ ДВО РАН в 2004г., состоит из 9 бездисковых узлов с процессорами Pentium-4 3 ГГц объединенных коммуникационной сетью Gbit Ethernet. Производительность по тесту LINPACK составляет 35.5 Gflops. Для информационного сопровождения работы вычислительного кластера открыт сайт http://cluster.as.khb.ru. Описываемый вычислительный кластер построен с использованием распространенных комплектующих и относится к начальному уровню высокопроизводительных вычислительных систем. Данный вычислительный кластер не позволяет радикально повысить производительность вычислений, однако является удобной экспериментальной базой для разработок в области системного и прикладного ПО. На нем ведется подготовка специалистов в области параллельных и распределенных информационных технологий. На вычислительном кластере для студентов проводятся лабораторные работы по параллельному программированию с использованием технологии MPI. Одним из основных направлений развития кластера является совершенствование средств удаленного доступа к его ресурсам, что позволяют повысить удобство и, в конечном счете, эффективность использования вычислительного кластера. На вычислительном кластере используется операционная система Linux. Система диспетчеризации задач TORQUE, сменившая OpenPBS, предоставляет пользователю средства управления задачами и получения статистической информации. Команды диспетчеризации доступны удаленно по ssh, однако для обычных пользователей кластера уровень дружественности интерфейса, предоставляемого по данному протоколу, удобство представления статистических и других данных в настоящее время не являются достаточными.

Система диспетчеризации сохраняет данные в таблицах СУБД MySQL, что позволяет осуществлять гибкие запросы на выборку хранимой информации по задачам. Данная возможность выборки использована при создании web-интерфейса к статистике пользовательских задач. Пользователь кластера, имеющий учетную запись, получает возможность в удобном и привычном виде просматривать статистические данные по его задачам. В таблицах базы данных также хранятся данные пользователей для контакта с администратором. Через web-интерфейс пользователь имеет возможность самостоятельно вносить изменения в эти данные. Изначально эту информацию пользователь должен самостоятельно внести при регистрации своей учетной записи. Для этого на кластере создана специальная web-страница регистрации нового пользователя. В случае корректности внесенной пользователем информации она заносится во временную таблицу базы данных и сохраняется там до тех пор, пока администратор не примет решения о создании учетной записи для данного пользователя или отказа от его регистрации на кластере. Администратору кластера предоставляется свой web- интерфейс, в котором помимо управления содержимым web-сайтом имеется интерфейс к очереди желающих получить новую учетную запись, а также к статистике по рассчитанным и текущим задачам и данным пользователей. Используется также система Wiki - удобный инструмент коллективного создания и редактирования текста.

Мониторинг вычислительного кластера подразумевает наличие набора функций, предоставляемых для получения детальной и достоверной информации о текущем состоянии вычислительного комплекса, а также о процессах изменения критически важных системных характеристик в течение определенного периода времени. Важным является также способность системы реагировать на изменения, главным образом негативные, в работе вычислительного комплекса, то есть необходимо организовать взаимодействие обслуживающего персонала с системой посредством уведомлений об определенных событиях. Основными требованиями, предъявляемыми к системам мониторинга являются: минимальное потребление ресурсов контролируемых узлов, надежность, переносимость (в смысле платформенной независимости), доступ к текущим данным и данным за период времени, простота развертывания и масштабируемость. Описанная система мониторинга была частично реализована с использованием языка программирования java на промежуточном и высоком уровнях. Было создано приложение grated, собирающее данные и проверяющее задаваемые триггеры. Высокому уровню данные предоставляются по протоколу TCP/IP в формате XML. Модульная реализация позволяет настроить приложение на иной формат входных и выходных данных. Высокоуровневая часть была реализована также на языке java в форме отдельного приложения grate и в форме аплета grape для доступа через web-интерфейс. Она используется для визуализации и хранения данных. В данных приложениях также существует возможность использовать триггеры. Программный модуль grate способен функционировать без использования grated, обращаясь к высокоуровневым сервисам Ganglia (gmetad) для получения необходимых данных. Анализ производительности данной системы мониторинга показал, что она находится на том же уровне по потреблению ресурсов, что и система, на базе которой строилась. Следует однако отметить большие затраты памяти, связанные с загрузкой в оперативную память помимо собственно программы и ее данных еще и виртуальной машины java.

При организации коллективного доступа к кластеру был решен ряд вопросов информационной безопасности: разграничение привилегий для категорий пользователей; взаимная идентификация сервера и клиента; шифрование передаваемых данных; умеренное увеличение сложности доступа к защищенным ресурсам и их администрирования. Управление группами пользователей на кластере осуществляется при помощи стандартных средств ОС Linux. Эта ОС позволяет организовывать работу с измененным корнем файловой системы - т.н. chroot-окружением. Ограничение различных типов ресурсов для пользователей осуществляется с использованием механизма PAM. Возможность ограничения таких важных ресурсов как процессорное время, размер различных сегментов оперативной памяти, число процессов, количество открытых файлов и ряд других позволяет избежать возможных воздействий типа DOS-атак. Безопасность удаленного доступа поддерживается средствами web-сервера Apache и системы SSL. В рамках этой системы создан центр управления сертификатами, который позволяет создавать, отзывать и подписывать сертификаты для серверов и пользователей.

Примечание. Тезисы докладов публикуются в авторской редакции



Ваши комментарии
Обратная связь
[ICT SBRAS]
[Головная страница]
[Конференции]

© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск