МАТЕМАТИЧЕСКИЕ МОДЕЛИ
ОПТИМИЗАЦИИ СРЕДЫ ХРАНЕНИЯ
ИНФОРМАЦИОННОГО РЕСУРСА

ЖУКОВА СВЕТЛАНА АЛЕКСАНДРОВНА

Чайковский технологический институт (филиал) Ижевского государственного технического университета

    В настоящее время наблюдается бурный рост объемов информации. По прогнозам аналитиков, архивы корпоративной информации удваиваются каждые два года. При существующей тенденции прогнозируется дальнейшее ускорение темпов роста, что ставит перед специалистами в области ИТ задачи управления информационным ресурсом, которые включают организацию долговременного хранения, резервирования, своевременной утилизации и защиты. Вместе с тем стоит задача гарантировать доступ к ИР с заданными показателями производительности, режима работы, надежности, защиты, т.е. обеспечение гарантированного уровня обслуживания. Ежедневное наращивание объемов информации делает поставленные задачи нетривиальными.
    Таким образом, перед специалистами в области хранения данных стоит задача в поиске новых, эффективных алгоритмов, моделей и методов организации хранения данных. В настоящее время предлагаются новые технологи в организации хранения ИР [1]. Наибольший интерес представляет направление в области управления жизненным циклом информации - среда ILM (Information Lifecycle Management) [2]. В основе данного подхода лежит понимание того, что разные типы информации могут иметь различную ценность на протяжении своего срока существования. ILM - это процесс управления информацией от создания и использования до удаления, - который соотносит затраты на хранения информации с изменением ее ценности для бизнеса. В основе ILM лежит создание распределенной многоуровневой и оптимизированной по стоимости среды хранения ИР.
    Для организации и внедрения распределенной многоуровневой среды хранения необходимо решить следующие задачи:
    - анализ действующей инфраструктуры организации с целью выявления бизнес-процессов и данных, их использующие, ранжирование в соответствии с приоритетами бизнеса, формулировке требований к ИР и разработки политик.
    - классификация ИР на протяжении его ЖЦ.
    - выбор аппаратных средств, обеспечивающих экономичное хранение данных.
    Важной задачей, стоящей перед специалистами по организации и хранения данных является размещение информации на тех носителях, характеристики которых удовлетворяют заданным параметрам качества обслуживания. С другой стороны, необходимо добиваться снижения затрат на их хранение. На рисунках 1, 2 представлены схемы управления хранением данных при традиционном подходе и при использовании многоуровневой среды.


Рис.1 управления хранением данных при традиционном подходе


Рис.2 Управление хранением данных при использовании многоуровневой среды.


    Новый подход в хранении данных предполагает выбор средства хранения в соответствии с ценностью ИР и установленных уровней сервиса: оперативная информация актуальна для бизнес-приложений и должна располагаться на высокопроизводительном дисковом массиве.Промежуточная информация располагается на дисках средней производительности. Архивные данные - длительно невостребованные, располагаются на менее производительных носителях, [4].
    В настоящее время, ведущие кампании [5] предлагают системы многоуровневого хранения, представляющие собой комплекс программно-аппаратных средств, который комплектуется дисковыми носителями различного типа. Например, Система AMS1000 производителя Hitachi поддерживает жесткие диски с интерфейсом SATA емкостью 250 и 500 ГБ, позволяя использовать высокоскоростные диски Fibre Channel для обслуживания онлайновых приложений, которым требуется минимальное время отклика, а затем без нарушения работы приложений перемещать данные на экономичные SATA-диски для их архивирования. Система может иметь различную комплектацию дисковых устройств. Какие дисковые массивы использовать в составе системы и в каком количестве - данная задача решается экспериментально на тестовом оборудовании, предоставляемом кампанией. Использование тестового оборудования является не всегда доступным и дорогостоящим решением. Поэтому, для решения обозначенных задач предлагается разработка математической модели системы хранения данных, используемой для оптимизации затрат на хранение.

    Оптимизация распределенной многоуровневой среды хранения рассматривается как задача, заключающееся в оптимизации параметров многоуровневой среды хранения ИР с заданными локальными характеристиками каждого уровня и в то же время объединенными совокупностью ограничений на всю среду хранения. Оптимальным планом является номенклатура дисковых массивов и количество внешних запоминающих устройств (ВЗУ), составляющих дисковый массив, при минимальной суммарной стоимости хранения. В такой постановке задачу можно рассматривать как задачу математического программирования с блочной (многоуровневой) структурой. Системы ограничений содержат все переменные, образующие блок-связку, другая часть ограничений содержит часть переменных и формирует блочную структуру [2,3].
    С учетом вышесказанного дадим формализованное описание задачи. Пусть имеем P-уровней и mp, p=1..P параметров, характеризующих ресурс, наличие каждого i-го параметра составляет наименьшее bpi и наибольшее Bpi, i=1..mp, значения в соответствующих единицах измерений. Эти параметры предназначены для формирования np типов дисковых массивов. Каждая единица j-го типа дискового массива характеризуется aij единицами i-го параметра ресурса.
    Обозначим через xpj - количество единиц j-го типа дисковых массивов на p-м уровне, тогда математическую постановку задачи можно записать в виде:

(1)
при ограничениях
(2)
(3)
(4)
, i=1..mp, p=1..P
(5)
, i=1..mp, p=1..P
(6)
, j=1..np, p=1..P
(7)
где P - общее количество локальных блоков,
m0 - число ограничений в блоке-связке,
np - число переменных в p-м локальном блоке,
mp - число ограничений в p-м локальном блоке,
vpj - объем диска j-типа в p-м локальном блоке
cpj - стоимость хранения информации на диске j-типа в p-м локальном блоке.
b0 - общее количество дисков хранения ИР,
bpi - наименьшее значение параметра ИР в p-м локальном блоке,
Bpi - наибольшее значение параметра ИР в p-м локальном блоке,
bi - наименьшее значение параметра ИР в блоке-связке,
Bi - наибольшее значение параметра ИР в блоке-связке,
Ω - множество целых, положительных чисел.
    Условия (2)-(4), описывают блок-связку, (5),(6) - отдельные блоки (уровни), (7) - условие целочисленного значения переменной xpj.
    В качестве ограничений в приведенной модели рассматриваются следующие параметры СХД
V - объем, Мб
Ps - пропускная способность , Мб\с диска
С - стоимость хранения, руб\Мб.
B - число подключаемых дисков, шт.
IOPS - число операций ввода-вывода в сек.
RAID - тип, принимает значение из заданного множества.

    Значения данных параметров определяются, с одной стороны, исходя из требований к ИР и задаются для каждого уровня (блока) индивидуально. С другой стороны, для блока-связки значения определяются техническими возможностями рассматриваемых аппаратных средств. Для того, чтобы учесть параметр RAID, влияющий на такие характеристики, как число дисков и производительность системы в целом, введем коэффициенты kv и kio.
    С учетом вышесказанного математическая модель примет вид:

    Приведенная математическая модель может использоваться для проектирования многоуровневой среды хранения с учетом изменяющихся параметров информационного ресурса. На рис. 3 приведены графики, построенные по результатам вычисления оптимальной стоимости хранения различных объемов ИР. Как показывают сравнительные результаты расчета, использование многоуровневой среды хранения снижает затраты на хранение ИР. При этом обеспечивается гарантированный уровень обслуживания информации. Однако, использование многоуровневой среды хранения эффективно при достижении объема ресурса сотен Гбайт.
    Разработанная модель может быть использована различными предприятиями, для которых характерен высокий темп роста объемов данных. Внедрение нового подхода в управлении ИР позволит значительно снизить затраты на поддержку ИР и обеспечит непрерывность бизнеса.


рис. 3 Графики зависимости стоимости хранения от объема ИР


Список литературы:
  1. Элиас Говард ILM - это путь, не имеющий конца //Открытые системы. 2004 - №5 – С. 13-17.
  2. Глухов В.В., Медников М.Д., Коробко С.Б. Математические метода и модели для менеджмента .- Сп.б: Издательство «Лань», 2000. – 480 с. (Учебник для вузов).
  3. Струченков В.И. Методы оптимизации. – М.: Издательство Экзамен. – 2005. – 256 с. (Серия «Учебное пособие для вузов»)
  4. Жесткие диски вчера, сегодня, завтра //Системы хранения данных. 2005 - №3.
  5. Материалы конференции Storage-Expo - 2007. www.storage-expo.com