Тестирование программно-определяемой СХД - Zadara VPSA

Данный материал подготовлен для компании ЛАНИТ в 2015 году

Архитектура системы

Компоненты системы хранения данных можно грубо разделить на следующие группы:

  • Модуль самообслуживания;
  • Модуль администрирования системы;
  • Модуль виртуальной СХД;
  • Гипервизор;
  • Набор ресурсов (CPU, MEM, HDD, Network).

Грубо архитектуру системы можно представить в виде частного облака на базе OpenStack, предоставляющего только виртуальные машины с функционалом СХД. Так-же как и в частном облаке в системе есть портал самоослуживания, через который пользователь создает виртуальную машину (виртуальную СХД).

Виртуальная СХД (VPSA) представляет собой две виртуальные машины, являющиеся логическими контроллерами СХД. VPSA при создании резервирует необходимые ресурсы: vCPU, vMEM, HDD;

Сопоставление ресурсов традиционной СХД и VPSA можно представить следующим образом:

Ресурс Традиционная СХД VPSA
Контроллер Выделенный сервер архитектуры x86 Виртуальная машина
Устройство обработки I/O Процессор x86, реже специализированный чип ASICВиртуальный процессор vCPU
Кэш-память ОС СХД Оперативная память контроллера Выделенный объем виртуальной оперативной памяти vRAM
Кэш-память данных Оперативная память контроллера Выделенный объем виртуальной оперативной памяти vRAM и выделенные SSD диски, установленные в сервера фермы.
Носитель информации Выделенные жесткие диски Выделенные жесткие диски
Интерфейс подключения жёстких дисков к контроллеруНепосредственное подключение по SAS Коммутируемое высокоскоростное подключение к виртуальной машине контроллеру по iSCSI с RDMA
Расположение носителей информации Дисковые полки системы Сервера фермы

Виртуальная СХД ни чем не отличается от традиционных систем класса Midrange, жесткие диски объединяются в RAID-группы, для обеспечения отказоустойчивости, группы объединяются в pool для повышения производительности и объема. Логические тома, созданные в пуле, презентуются серверам по протоколам файлового и блочного доступа.

Система предоставляет пользователям возможность создавать VPSA следующей конфигурации:

НазваниеCPUsRAMМаксимальное число дисков
200 2 4 5
400 4 8 10
600 6 16 20
800 8 24 40
1000 10 32 80
1200 12 48 80
1600 16 64 80

Технологии обеспечения отказоустойчивости

Система обладает следующими архитектурными решениями по резервированию:

Контроллеры VPSA представляют собой виртуальные машины, размещенные в частном облаке OpenStack. Виртуальные контроллеры имеют архитектуру Active / Standby. В каждый момент времени один контроллер является рабочим, второй – запасным. Переключение занимает от 20 (результат тестирования) до 60 секунд (заявление производителя). Так как контроллер подключается к дискам по коммутируемому протоколу iSCSI с RDMA - снимется ограничение на расположение самой виртуальной машины контроллера. Машина может быть перенесена на любой из серверов фермы СХД.

Для защиты от выхода из строя стойки, машзала или ЦОД в рамках синхронной репликации существует возможность расположить контроллеры активный и резервный на разных площадках, подключив диски таким образом, что каждая площадка будет иметь свою копию данных и в случае прерывания работы – сможет продолжить предоставление дискового ресурса, автоматически проведя переключение.

Как и традиционные СХД VPSA обладает стандартным функционалом внутрисистемной и внешней репликации:

  • Мгновенные снимки и клоны без ограничения количества. Обеспечивают функционал Near-CDP (близкая к постоянной защита данных), мгновенные снимки могут создаваться раз в минуту. Поддерживается монтирование снимков на запись. Присутствует интеграция с VSS.
  • Локальное и удаленное зеркалирование (репликация) логических томов. Локально данные зеркалируются синхронно, удаленная репликация поддерживается только в асинхронном режиме – на базе мгновенных снимков. Поддерживается возможность репликации существующих мгновенных снимков на удаленную площадку. Поддерживается возможность иметь различное число снимков на источнике и приемнике. С помощью данного функционала открывается возможность по реализации удаленного хранилища резервной информации (data silo), когда на основной системе хранятся снимки за последний день, а в хранилище за более долгий период (месяц, год) с различной частотой. Например: на основной площадке хранятся часовые снимки за 24 часа, на удаленной дневные снимки за месяц и месячные снимки за целый год.
  • Миграция логических томов без остановки доступа обеспечивает возможность изменения уровня RAID, типа дисков и логического тома.

Сравним технологии обеспечения отказоустойчивости с традиционными СХД, уровня Midrange:

Технология Традиционная СХД (например HP 3par 8400) VPSA
Защита от выхода из строя диска CPG группы. (RAID собирается не из дисков целиком, а из маленьких блоков.) Традиционные RAID-группы. (В RAID объединяются диски целиком.)
Скорость восстановления диска Высокая Обычная
Снижение производительности при восстановленииНезначительное Ощутимое
Мгновенные снимки
Поддержка снимков на запись Чтение / Запись Чтение / Запись
Число мгновенных снимков с тома 256 на Чтение / Запись

500 только на Чтение
Удаленная репликация
Синхронная Да Нет
Асинхронная Да Да
Время переключения между контроллерами +0 20-60 сек.
Распределенная СХД
Функционал HP Peer Persistence Встроенный функционал
Архитектура Синхронная репликация между двумя отдельными СХД + авт. прозрачное переключение средствами MPIO сервера (Hyper-V, VMware, Linux)Два контроллера СХД разносятся между двумя площадками.
Время переключения Нет данных До 60 секунд

Результаты тестирования отказоустойчивости

Тест Параметры Значения В пределах нормы Примечание
Поток данных находится во внутренней сети СХД Поток данных находится во внутренней сети СХД Чтение происходит с локальной СХД. Запись происходит на все плошадки. Да  
Отказ одного из активных путей от хоста к СХД Производительность штатного режима 2400 IOPS хост - vmware

Failover режим на vmware  - Route based balanced by virtualport id

  
Выполнение сценария сбоя Задержка переключения - около 20 секунд Да
Сессия не рвется
ВМ работает штатно
Производительность аварийного режима 1200 IOPS Да
Производительность режима восстановления ~1200 IOPS Да  
Отказ всех из активных путей Срабатывание HA и переключение на альтернативные пути Система переключилась на резервные пути Да  
Отказ всех путей Срабатывание HA, Время на срабатывание HA Не тестировалось. Не имеет отношения к СХД.  
Проверка работы vMotion Время переноса машины под нагрузкой 10 GbE - 61s Да  
Проверка работы Storage vMotion 10 GbE - 10m 40sec Выяснилось что кабель 10GbE поврежден. Результаты теста не засчитаны.Тестирование было произведено с помошью переноса ВМ на СХД работающую на удаленной площадке
1GbE - Больше 30 минут. Не дождались.
Выход из строя  контроллера локальной СХД Производительность штатного режима ~1000 ±200 IOPS Тестировался выход из строя контроллера СХД на локальной площадке.
Производилось выключение виртуальной машини контроллера СХД через консоль внутреннего гипервизора
Чтение происходит с площадки с активным контроллером. Запись происходит на обе площадки. 
Выполнение сценария сбоя Восстановление на запасной контроллер за 20 секунд.  Ок
Сессия не рвется
ВМ работает штатно
Производительность аварийного режима ~1000 ±200 IOPS Ок
Производительность режима восстановления н/д Ок
Выход из строя  одного  из двух аппаратных узлов на локальной площадкеПроизводительность штатного режима ~1000 ±200 IOPS  Переподключилась сессия RDP к виртуальной машине! 
Выход из строя  одного  из двух аппаратных узлов на локальной площадкеОдин диск пропал. Активный контроллер выключился. Система работает на запасном контроллере. Ок
Производительность аварийного режима ~1000 ±200 IOPS Ок
Производительность режима восстановления н/д
Выход из строя двух (всех) аппаратных узлов на локальной площадке Производительность штатного режима ~1000 ±200 IOPS  
Выполнение сценария сбоя Восстановление на запасной контроллер за 37 секунд.  Ок  
Сессия не рвется Ок  
ВМ работает штатно Ок  
Производительность аварийного режима 30 секунд нет IO Ок  
~500 ±300 (первые пару минут) Ок  
Далее ~1000 ±200 IOPS Ок  
Производительность режима восстановления н/д  
Полная потеря основной площадки Срабатывание HA. Время на срабатывание. Не тестировалось. Не имеет отношения к СХД.  
Разрыв канала репликации Производительность штатного режима 10 000 IOPS  Остался InterSwitch Link
Активный и пассивный контроллер не поменялись местами. Диски со второй площадки на СХД стали недоступны. HA не сработал.

RDP сессия до виртуальной машины упала
Контроллеры в Active / Standby

 
Отключение одного канала репликации Без изменений ОК
Отключение второго канала репликации 4 000 IOPS ОК
Отключение всех каналов связи между площадками 0 IOPS - 1:41 сек… ОК
Производительность режима восстановления н/д
Выход из строя кворума Срабатывание HA ничего не происходит Да  
Сбой/отказ системы управления СХД Срабатывание HA Не тестировалось. Система управления по архитектуре не влияет на СХД. Да  

Результаты функционального тестирования

Тест Параметры Значения В пределах нормы Примечание
Поддерживаемые протоколы файловых систем Блочный доступ iSCSI + RDMA Да  
Файловый доступ CIFS/NFS Да  
Другое Протоколы: Object Возможно так-же добавить практически любые протоколы путем установки специализированной ВМ внутрь фермы СХД
Поддержка multitenancy Уровень администраторов ЦОД Да Да Отдельная консоль управления
Уровень администраторов Заказчика Да Да Отдельная консоль управления
Уровень пользователей сервиса Да Да Self service portal
Интеграция с LDAP/AD заказчика Наличие интерфейса интеграции Да Да Web/API?
Интерфейс управления администрирования Платформа Web Да Платформа интерфейса администратора
StandAlone Нет
API Да
Mobile Да
Документация Да/Нет Да  
Русификация Not Supported
Интерфейс управления пользователя Платформа Web Да Платформа интерфейса пользователя
StandAlone Нет
API Да
Mobile Да
Документация Да/Нет Да  
Русификация Да Уже разрабатывается российским представительством
Пребиллинг Наличие системы Да/Нет Да  
Платформа Web Да  
StandAlone Нет
API Да
Планы учёта ресурсов Да/Нет, Да Входная информация для тарифов на сервисы
<Кол-во планов>infinite
Поддержка VMware ChargeBack Да/Нет Да  
Интеграция инструментов администрирования в Web портал заказчика Наличие готовых библиотек для интеграции в WebДа/Нет Да Наличие объектов интеграции, не требующих кодирования
Поддерживаемые web платформы, middleware Java/HTML… No aditional ReqirementsИнструмент для кастомной интеграции
Интеграция инструментов администрирования с VMware vCloud DirectorНаличие интеграции Да/Нет roadmapped Наличие объектов интеграции, не требующих кодирования
API Название/версияVASA Инструмент для кастомной интеграции

Конфигурация тестового стенда

Параметр Значение Примечание
Название Blazing (10 x vCPU + 32 gb RAM)
Колличество дисков NLSAS 7.2k0
Колличество дисков SAS 10k 0
Колличество дисков SAS 15k 0
Колличество дисков SSD 4 x 800GB MLC Intel® SSD Data Center S3610
Объем кэш-памяти 80 GB SSD + 17 GB RAM
Объем write-back кэш-памяти 80 GB SSD
Интерфейс подключения 1 x 10GbE
Тип CPU 7x vCPU

Технические характеристики носителей использованных при тестировании :

Intel® SSD DC S3610 Series (800GB, 2.5in SATA 6Gb/s, 20nm, MLC)1)
Кодовое название Haleyville
Essentials
Дата выпуска Q1'15
Последовательное чтение 550 MB/s
Последовательная запись 520 MB/s
Случайное чтение (участок 100%) 84000 IOPS
Случайная запись (участок 100%) 28000 IOPS
Задержка - чтение 55 µs
Задержка - запись 66 µs
Среднее время наработки на отказ 2000000
Доля неустранимых битовых ошибок (UBER) 1 sector per 1017 bits read
Техническое описание Link
Краткое описание продукции Link
Package Specifications
Емкость 800 GB
Форм-фактор 2.5“ 7mm
Interface SATA 3.0 6Gb/S
Литография 20 nm
Advanced Technologies
Расширенная защита от потери данных при отключении питанияYes
Аппаратное шифрование AES 256 bit
–High Endurance Technology Yes
Мониторинг и журналирование температуры Yes
Комплексная защита данных Yes

Результаты тестирования производительности

fio bench

Использованные шаблоны тестирования, отраженные на графике:

  1. rand_read_4
  2. rand_read_8
  3. rand_read_16
  4. rand_read_256
  5. rand_read_write_4
  6. rand_read_write_8
  7. rand_read_write_16
  8. rand_read_write_256
  9. rand_write_4
  10. rand_write_8
  11. rand_write_16
  12. rand_write_256
  13. read_4
  14. read_8
  15. read_16
  16. read_256
  17. read_write_4
  18. read_write_8
  19. read_write_16
  20. read_write_256
  21. write_4
  22. write_8
  23. write_16
  24. write_256

Оценка эффективности системы

Характер нагрузки Эффективность
Zadara CEPH HP 3par
Случайное чтение 83% 79% 100%
Случайная запись 19% 75% 50%
Случайное чтение/запись (50/50)108% 67%
Чтение 29% 57% 43%
Запись 37% 37% 24%
Избыточность защиты данных 200% 300% 200%
Источник результатов: As Measured Интернет2)3)HP SST4)

Заключение

Программно определяемая система хранения данных Zadara VPSA, в отличие от традиционных SDS предлагает пользователям не емкость для хранения а полнофункциональную СХД, уровня Midrange. ОС виртуальной СХД практически не отличается от ОС традиционных систем хранения данных.

К преимуществам системы можно отнести:

  • Гибкость настройки
  • Удобный портал самообслуживания
  • Архитектура, допускающая увеличение объема СХД практически без ограничений и без остановки сервиса
  • Подробная документация по интерфейсам программирования (API) и кастомизации
  • Публичность компании и ориентированность на частных и корпоративных клиентов
  • Расширенные возможности по управлению мгновенными снимками

Данную систему можно порекомендовать для решения следующих задач:

  • Консолидация емкостей хранения в ИТ отделе обслуживающем несколько департаментов;
  • Замена одной или нескольких традиционных СХД среднего уровня;
  • Предоставление выделенного дискового ресурса большому числу ИС;
  • Облачные решения, провайдеры облачных услуг;

Слабыми сторонами системы являются:

  • Ограничение по производительности одного логического тома (макс. 80 дисков)
  • Отсутствие функционала синхронной удаленной репликации
  • Не полная поддержка решений класса Enterprise по виртуализации вычислительных ресурсов – VMware ESX
  • Система не поддерживает «гигантские» объемы, и не приспособлена для создания файловых хранилищ практически неограниченного объема.