Ваш путеводитель по хранению (Часть 2)
на информационный бюллетень обновления статей WindowsNetworking.com в режиме реального времени.
Введение
В части 1 этой серии вы узнали о IOPS и некоторых функциях корпоративного хранилища. В этой части вы узнаете об основах RAID и о том, почему RAID 5 стал спорной темой. В следующей части этой серии вы узнаете о многих широко используемых уровнях RAID.
RAID
RAID существует очень давно, и, хотя когда-то он был объявлен самой важной функцией хранения, с тех пор он начал быстро снижаться, поскольку рабочие нагрузки на хранилище превосходят способность RAID разумно справляться со сбоями. Сегодня, хотя RAID по-прежнему используется, он часто используется как часть более крупного набора систем защиты данных.
Существует множество различных уровней RAID, и когда-то каждый уровень RAID использовался в определенных ситуациях. Сегодня, однако, некоторые уровни RAID вышли из употребления и редко, если вообще когда-либо, встречаются в дикой природе. Таким образом, обсуждение в этой статье ограничено теми уровнями RAID, которые все еще широко используются в центрах обработки данных.
Прежде чем приступить к обсуждению уровней RAID, важно понять, почему RAID сам по себе так важен. Как вы, наверное, знаете, жесткие диски время от времени выходят из строя. Нет ничего хуже, чем отказ жесткого диска, который унесет с собой все активы данных организации. Фактически, значительная потеря данных традиционно была причиной банкротства многих предприятий. Таким образом, неспособность защитить данные действительно является предложением «сделать ставку на бизнес».
Но почему жесткие диски вообще выходят из строя? Это сводится к физике. Традиционные жесткие диски имеют внутри множество движущихся частей. Дисковые пластины вращаются с безумной скоростью, а головки дисков буквально парят на крохотной воздушной подушке в поисках данных, хранящихся на этих пластинах. Когда вы думаете об этом с точки зрения макросов, тот факт, что это даже работает, просто удивителен.
Но, как и все механические вещи, что-то может пойти не так. Головки могут разбиться о диск, царапать пластины или пластины могут не вращаться. На тарелках могут образоваться плохие пятна. Диск можно уронить или иным образом повредить. Короче говоря, они иногда терпят неудачу.
Каждый жесткий диск поставляется с набором спецификаций, предоставленных производителем относительно отказа. Первая спецификация называется MTBF или среднее время наработки на отказ. Среднее время безотказной работы, выраженное в часах, — это способ сообщить потребителям, как долго прослужат их диски… в среднем. Среднее время безотказной работы — это цифра «в идеальном мире», которая не всегда учитывает условия эксплуатации. Существуют всевозможные факторы окружающей среды, которые могут привести к отказу диска задолго до того, как это должно произойти. К ним относятся пыль, вибрации, человеческий фактор и многое другое.
Но когда дело доходит до RAID, это вторая основная метрика, которая представляет реальный интерес. Эта метрика известна как частота ошибок по битам (BER) и иногда называется неисправимой ошибкой чтения (URE). Проще говоря, BER — это мера количества битов, считанных до того, как один из битов станет нечитаемым. Биты в данном случае — это различные единицы информации, хранящиеся на жестком диске. Частота ошибок по битам измеряется такими терминами, как «1 из 10^15 прочитанных бит» или «1 из 10^16 прочитанных бит». Это означает, что в конечном итоге диск может столкнуться с ситуацией, когда он не сможет прочитать часть информации с носителя. Когда это происходит, хранящаяся там информация не подлежит восстановлению. По сути, это означает, что данные потеряны.
В обычной повседневной работе BER случаются редко. Однако, когда диск подвергается интенсивным циклам чтения, вероятность URE возрастает. И вот где RAID и BRE пересекаются потенциально плохим образом.
Давайте взглянем только на уровень RAID. RAID 5 очень часто использовался в центрах обработки данных и до сих пор широко используется. RAID 5 обеспечивает клиентам некоторую защиту данных при относительно небольших затратах на емкость. В массиве дисков RAID 5 общие накладные расходы по емкости для RAID 5 равны объему хранилища одного диска. Таким образом, если в массиве RAID 5 имеется 8 дисков по 4 ТБ, общая емкость будет равна семи дискам, или 28 ТБ. Эта последняя емкость диска используется для хранения информации о четности, что позволяет восстановить данные в случае сбоя диска. Эта информация о четности распределяется по всем восьми дискам в массиве.
Но вот проблема. С массивными дисками, такими как упомянутый выше бегемот на 4 ТБ, когда происходит сбой диска в массиве, требуется невероятно много времени, чтобы восстановить этот диск с использованием информации о четности, которая существует на остальных дисках в массиве. Пока выполняется операция перестроения, массив не защищен. Потеря другого диска приведет к потере всех данных в массиве. Чем больше диск, тем больше время восстановления и выше вероятность того, что другой диск выйдет из строя в так называемой ситуации «двойной ошибки диска». Однако именно в это время каждый диск в массиве подвергается чрезвычайно интенсивному чтению, поскольку информация о четности сканируется для восстановления потерянных данных. Если процесс перестроения столкнется с URE, это все; процесс восстановления останавливается.
Именно по этой причине специалисты по хранению данных не рекомендуют использовать RAID 5 с особенно большими дисками и, в частности, с дисками SATA, которые на порядок более восприимчивы к BER/URE, чем диски SAS, хотя некоторые диски SATA корпоративного уровня соответствуют Надежность САС. Фактически, все движение было построено вокруг отказа от использования RAID 5 в центрах обработки данных. Однако есть и те, кто считает, что страх перед RAID 5 преувеличен. Если вы хотите узнать больше об этой теме, взгляните на эту прекрасную статью. Архитектор СХД должен определить, какой риск может выдержать организация, и убедиться, что высшее ИТ-руководство знает об этом риске до внедрения.
Из-за страха перед RAID 5 многие рекомендуют использовать RAID 6 в качестве следующего логического шага. В то время как RAID 5 может выдержать потерю только одного диска в массиве, RAID 6 может выдержать потерю до двух дисков в массиве. Как и RAID 5, RAID 6 использует схему распределенной четности для защиты данных, но делает это дважды. Как вы можете догадаться, это означает, что для RAID 6 требуется больше накладных расходов по емкости, чем для RAID 5. Точнее, для RAID 6 требуются накладные расходы, равные емкости двух дисков в массиве.
К сожалению, это не единственная дополнительная нагрузка, связанная с массивом RAID 6. На самом деле емкость обычно не так сильно влияет на производительность записи. И вот почему: каждый раз, когда запрос на запись отправляется в массив RAID 6, требуется выполнить ШЕСТЬ операций ввода-вывода в хранилище, хотя специальные аппаратные процессоры часто могут обеспечить быстрое выполнение этих операций. Кроме того, существует несколько схем с двойной четностью, которые могут обеспечить защиту, подобную RAID 6, без значительного снижения производительности.
Резюме
Поняв некоторые основы RAID, в части 3 мы углубимся в изучение того, что заставляет работать различные уровни RAID.
на информационный бюллетень обновления статей WindowsNetworking.com в режиме реального времени.