Назад к основам (часть 3): виртуализация 101: учебник по хранению данных (продолжение)

Опубликовано: 21 Апреля, 2023

Введение

Данные — это кровь организации. Информация о клиентах, информация о продажах и платежная ведомость — это лишь часть того, что заставляет организацию работать. Таким образом, хранилище, в котором хранятся эти данные, является неотъемлемой частью центра обработки данных любой организации. Когда дело доходит до управления вашей виртуальной средой, вам необходимо убедиться, что у вас достаточно емкости хранилища, что обсуждалось в предыдущей части этой серии статей, а также достаточно производительности хранилища, чтобы все решение могло соответствовать потребностям рабочей нагрузки..

Способы подключения

Давайте начнем с обсуждения различных методов, с помощью которых вы можете подключить свои виртуальные хосты к хранилищу в среде.

Хранилище с прямым подключением

Когда вы думаете о хранилище с прямым подключением, подумайте о жестких дисках, которые являются внутренними для сервера или которые подключаются непосредственно к серверу через какой-либо прямой интерфейс, такой как Serial Attached SCSI (SAS), Serial ATA (SATA) или eSATA. Диски SAS подключаются к интерфейсу, работающему на скоростях от 3 Гбит/с до 6 Гбит/с, а каналы связи SATA работают на скоростях 1,5 Гбит/с, 3 Гбит/с или 6 Гбит/с. Хотя скорость передачи дисков SAS и SATA на первый взгляд одинакова, SAS более эффективен, а диски SAS часто работают с гораздо более высокими скоростями вращения (7,2 тыс. об/мин, 10 тыс. об/мин и 15 тыс. об/мин), чем SATA, максимальная скорость 10K RPM даже для самого лучшего диска.

Следует отметить, что важно рассматривать канал связи между хранилищем и хостом отдельно от типа диска. Почему? Потому что вы можете, например, использовать диски SATA в массиве хранения iSCSI.

Хотя хранилище с прямым подключением может обеспечить очень хорошую производительность при использовании правильных дисков, хранилище с прямым подключением в настоящее время имеет некоторые ограничения, которые либо препятствуют, либо усложняют реализацию некоторых расширенных функций гипервизоров. Например, в vSphere для использования механизмов высокой доступности, таких как vMotion и планировщик распределенных ресурсов, необходимо иметь общее хранилище. По своей природе хранилище с прямым подключением в этом контексте не является общим хранилищем. То есть хранилище с прямым подключением выделяется для подключенного хоста и не используется совместно с несколькими хост-системами.

Некоторые компании выпустили решения, которые позволяют использовать эти высококачественные функции даже при использовании общего хранилища. Тем не менее, эти решения, как правило, ориентированы на малые и средние предприятия, которые могут не иметь, желать или нуждаться в сложной среде общего хранения, но при этом хотят иметь возможность использовать преимущества функций высокой доступности.

iSCSI

Еще до появления SAS и SATA серверы использовали диски SCSI. Диски SCSI имеют собственный набор команд, который позволяет запоминающим устройствам выполнять свои обязанности. Сегодня набор команд SCSI используется как в системах хранения с прямым подключением (SAS), так и в системах хранения с общим доступом (iSCSI). iSCSI — это общая сеть хранения, которая использует протокол TCP/IP для связи с хранилищем. Это эффективно перемещает трафик хранилища в Ethernet, при этом трафик хранилища инкапсулируется в IP-пакеты. Эта двойная инкапсуляция — команды SCSI в TCP/IP и TCP/IP в кадры Ethernet — добавляет к iSCSI некоторые накладные расходы, которых нет в других методах подключения, но также предоставляет iSCSI все преимущества TCP/IP, включая отлаженный механизм маршрутизации.

Массивы хранения данных iSCSI подключаются к сети со скоростью 1 Гбит/с или 10 Гбит/с. На стороне хоста/гипервизора определенные физические адаптеры Ethernet предназначены для хранения данных iSCSI. Самое приятное в iSCSI: организации могут полагаться на свои существующие и хорошо изученные сетевые инфраструктуры для создания мощной среды общего хранения.

Волоконный канал

Когда дело доходит до корпоративного общего хранилища, Fibre Channel уже давно занимает лидирующие позиции на вершине производительности благодаря самому быстрому доступному транспорту, а также самым быстрым доступным дискам. Разновидности 10 и даже 16 Гбит/с.

Сегодня на рынок также выходит более новый и простой вариант Fibre Channel. Fibre Channel over Ethernet (FCoE) — это способ инкапсулировать кадры Fibre Channel и напрямую помещать их в пакет Ethernet. FCoE предназначен для того, чтобы помочь организациям снизить затраты и упростить свою кабельную инфраструктуру, при этом предоставляя высокоскоростные сетевые возможности хранения данных.

Основными проблемами Fibre Channel на протяжении многих лет были его стоимость и сложность. Эта технология была дороже, чем конкурирующие решения, и требовала специального набора навыков.

Правда

Я не собираюсь говорить, что ваш выбор транспорта не имеет значения, потому что он имеет значение, но, вероятно, не так сильно, как это часто представляется правдой. Для малых и средних сред и даже для некоторых крупных сред более чем подходит iSCSI 1 Гбит/с, но при наличии iSCSI 10 Гбит/с вариантов становится еще больше.

Я не собираюсь отстаивать какой-то конкретный вариант. Тем не менее, даже при большой нагрузке я не видел, чтобы механизм транспортировки хранилища был основной причиной проблем с производительностью в сильно виртуализированной среде.

Хотя выбор транспорта является важным фактором, его труднее определить количественно, чем другие факторы производительности.

Пересмотр уровней RAID

Прежде чем я перейду к другим факторам производительности, давайте рассмотрим приведенную ниже диаграмму, в которой показаны некоторые из различных уровней RAID, которые могут быть в вашем распоряжении. В части 1 этой серии мы сосредоточились на вопросе о мощности, который требовал от вас сосредоточиться на столбце «Накладные расходы» в таблице. В этой части мы сосредоточимся на производительности, количественно определяемой в столбце «Влияние на запись».

Рейдовый уровень

Защита

Толерантность

Мин.

диски

Накладные расходы

Напишите

влияние

RAID 0

Никто

0 дисков

2

Никто

Никто

RAID 1

Отлично

1 диск

2

50%

2x

RAID 5

Хороший

1 диск

3

1/n дисков

4x

RAID 6

Превосходно

2 диска

4

2/n дисков

6x

RAID 10

Превосходно

1/2 дисков*

4

50%

2x

RAID 50

Хороший

1 в комплекте

6

1/n дисков * Наборы RAID 5

4x

RAID 60

Превосходно

2 в наборе

8

1/n дисков * наборы RAID 6

6x

Таблица 1

Отвечаю на вопрос о производительности

В части 1 я заканчивал статью сообщением о том, что на первый взгляд может показаться, что RAID 6 — ваш лучший выбор, поскольку он предлагает максимальную избыточность и защиту без особых накладных расходов. Однако емкость — это всего лишь одна метрика хранилища. Второе, не менее важное, — производительность хранилища. С этой точки зрения RAID и его варианты, такие как RAID 60, являются худшим выбором. Видите ли, когда вы используете RAID 6/60, каждый раз, когда вы записываете данные в массив хранения, требуется шесть отдельных операций ввода-вывода. Вот почему в столбце «Влияние на запись» в таблице говорится, что производительность записи увеличивается в 6 раз.

Вы заметите, что, за исключением RAID 0, все уровни RAID налагают некоторый штраф за запись. RAID 0 не имеет штрафа за запись, но он также не обеспечивает никакой защиты, поэтому для большинства людей это не лучший выбор.

Базовая метрика

Когда вы говорите о производительности таким образом, общим показателем является IOPS (ввод/вывод в секунду). Чем больше у вас операций ввода-вывода в секунду, тем больше данных вы можете передавать туда и обратно. Это метрика, отдельная от транспорта.

IOP зависит не столько от базовой дисковой технологии, сколько от скорости вращения диска. Чем быстрее вращается диск, тем больше данных можно с него быстрее прочитать. Вот очень приблизительная оценка IOPS, основанная на скорости вращения (может быть заниженной, но достаточно хороша для обсуждения).

7200 об/мин: 75 IOPS

10 000 об/мин: 125 операций ввода-вывода в секунду

15 000 об/мин: 175 операций ввода-вывода в секунду

Теперь давайте посмотрим, что происходит, когда вы начинаете применять потребности приложения к хранилищу. Давайте возьмем Exchange в качестве примера, так как его легко понять… концепции можно перенести на виртуализацию. Предположим, что для вашей большой среды Exchange требуется 5000 операций ввода-вывода в секунду при чтении и 2000 операций ввода-вывода в секунду при записи на основе значений, введенных вами в инструмент калькулятора почтовых ящиков Exchange. С помощью простой математики вы обнаружите, что ваши IOPS чтения легко определить:

7200 об/мин: 67 дисков

10 000 об/мин: 40 дисков

15 000 об/мин: 29 дисков

Как видите, скорость вращения сильно влияет на количество дисков, необходимых для конкретной реализации.

Теперь давайте посмотрим на сторону записи. Прежде чем вы сможете сделать те же самые расчеты, вы должны сначала учесть влияние ввода-вывода RAID. Это достигается за счет умножения. Предположим, вы выбрали уровень RAID 10 и будете использовать диски со скоростью вращения 15 000 об/мин.

Сначала умножьте требуемые 2000 операций ввода-вывода в секунду на 2-кратный штраф RAID для RAID 10, чтобы получить 4000 операций ввода-вывода в секунду, а затем разделите полученное значение на 175 операций ввода-вывода в секунду. В результате необходимо 23 диска со скоростью 15 000 об/мин, чтобы достичь 2 000 операций ввода-вывода в секунду с RAID 10.

Опять же, это очень, очень упрощенно, но предназначено для того, чтобы помочь вам продумать различные переменные, которые необходимо учитывать, когда речь идет о хранилище в вашей виртуальной среде.

Один из моментов, когда игра IOPS поднимет голову, наступит, когда вы подумаете о VDI. Подумайте вот о чем: в 8 утра все приходят в офис. Если у каждого сотрудника есть виртуальный рабочий стол, сотни людей могут одновременно загружать свои виртуальные машины. Это процесс с интенсивным вводом-выводом, который может привести к так называемому «загрузочному шторму». Это в основном ситуация, в которой хранилище может быть перегружено. Эти загрузочные штормы должны быть запланированы. В таких ситуациях рассмотрите возможность использования твердотельных дисков с очень высоким числом операций ввода-вывода в секунду (до нескольких тысяч на диск) и архитектуры, которая нацелена на эти твердотельные накопители в процессе загрузки, чтобы противостоять эффекту бурной загрузки.

Резюме

Эта серия из трех частей предназначена для того, чтобы помочь вам подумать о потребностях в хранении, которые могут возникнуть в вашей виртуальной среде, чтобы помочь вам понять, как выбор архитектуры, который вы делаете, может оказать серьезное влияние на емкость и производительность ваших виртуальных машин.