SOS для твердотельных накопителей: как избежать сбоя прошивки твердотельных накопителей

Опубликовано: 14 Марта, 2023
SOS для твердотельных накопителей: как избежать сбоя прошивки твердотельных накопителей

Несколько месяцев назад мой коллега предупредил меня о критическом бюллетене, выпущенном центром поддержки Hewlett Packard Enterprise. В бюллетене содержится предупреждение о дефекте прошивки, который был обнаружен в некоторых моделях твердотельных накопителей (SSD), используемых в нескольких различных системах и устройствах HP. Заголовок бюллетеня поначалу было достаточно сложно разобрать: «Твердотельные накопители HPE SAS — для некоторых моделей твердотельных накопителей HPE SAS требуется критическое обновление микропрограммы, чтобы предотвратить отказ накопителя через 32 768 часов работы». Бюллетень был первоначально выпущен в ноябре и с тех пор обновлялся четыре раза, в том числе в конце прошлого месяца. Вы можете прочитать полный бюллетень здесь.

Все сводится к тому, что если вы приобрели одну из пострадавших систем HP и включили ее, то можете ожидать, что SSD в ней катастрофически выйдет из строя ровно через 3 года, 270 дней и 8 часов (32 768 часов работы). Ну, по крайней мере, приятно знать, когда что-то выйдет из строя, чтобы у вас не слетели носки, когда это произойдет.

Конечно, неисправная прошивка — не единственное, что может вызвать проблемы с SSD. Общеизвестно, что даже твердотельные накопители, которые использовались минимально, могут внезапно и неожиданно выйти из строя при определенных нагрузках. По крайней мере, с жесткими дисками (HDD) вы можете получить ошибки SMART, предупреждающие вас о том, что ваш диск может довольно скоро выйти из строя. С другой стороны, твердотельные накопители могут преждевременно выйти из строя без создания каких-либо условий ошибки SMART. Тем не менее, невероятная скорость, которую технологии SSD имеют по сравнению с более медленными технологиями «вращающейся ржавчины», побудила многие компании перенести большую часть своих хранилищ с жестких дисков на диски SSD, где им позволял их бюджет. А цены на твердотельные накопители продолжают падать и быстро приближаются к паритету со стоимостью жестких дисков.

Но остается вопрос: как подготовить свой центр обработки данных, чтобы подобная проблема с прошивкой не вывела из строя ваши серверы и другие устройства? Я поговорил об этом с несколькими коллегами и изложил их консенсус ниже в виде ряда передовых практик или советов, которым вы должны следовать.

Запишите меня!

Изображение 4212
Шаттерсток

Первое, что вы должны сделать, если вы используете твердотельные накопители или у вас есть развернутые системы или устройства, в которых есть твердотельные накопители, — это подписаться на список рассылки предупреждений о поддержке вашего поставщика, если он у них есть. И не покупайте ничего у поставщика, у которого нет списка рассылки, на который вы можете подписаться и который предоставляет оповещения о проблемах с их продуктами. К сожалению, некоторым поставщикам может быть сложно узнать, где вы можете подписаться на такого рода предупреждения или бюллетени службы поддержки. Например, HP позволяет вам подписаться на электронные оповещения о драйверах и поддержке на этой странице, а также на другие объявления, более ориентированные на маркетинг, просто указав свое имя, компанию и адрес электронной почты. Dell позволяет вам подписаться здесь, чтобы получать уведомления об обновлениях драйверов и микропрограмм, но для этого необходимо сначала создать учетную запись Dell в MyAccount. Однако для других поставщиков вам нужно либо искать в Google различные термины, такие как «бюллетени поддержки» или «подписаться на оповещения» и т. д., либо просто копаться на их веб-сайте в поисках информации о том, как подписаться (и есть ли у них даже список, который вам нужен). можно подписаться).

Подружись со своим ТАМ

Если вы являетесь корпоративным клиентом, то вам, вероятно, был назначен технический менеджер по работе с клиентами, или работа ТАМ работает у поставщика, и чья работа состоит в том, чтобы помочь вам получить ответы, когда они вам нужны (и убедить вас купить больше их продуктов). Мой совет: постарайтесь наладить хорошие рабочие отношения с вашим ТАМ, а не относиться к ним просто как к еще одному жадному придатку отдела продаж вашего поставщика. Хороший ТАМ может стать спасителем во многих трудных решениях, а ТАМ, с которым вам комфортно разговаривать — и который чувствует себя комфортно, потому что он также может связаться с вами, не чувствуя себя назойливым или слишком назойливым — это именно тот человек, который вам нужен, когда в одном из их продуктов обнаруживается что-то вроде критической проблемы с прошивкой. Попросите вашего TAM уведомить вас, если что-то подобное появится на их радаре, и скажите им, что вы были бы признательны им за то, что они отправят текстовое сообщение или позвонят вам без промедления, если что-то подобное произойдет. Хороший TAM может не только предупредить вас о проблеме с прошивкой, но также помочь найти и, возможно, даже развернуть необходимое обновление прошивки, когда оно было выпущено вашим поставщиком. Или, по крайней мере, ваш TAM может связать вас с кем-то из команды поддержки вашего поставщика, который действительно знает свою игру, а не просто следует сценарию, который им предоставили.

Делайте регулярные резервные копии

Мой последний совет должен быть легким, поскольку он применим ко всему в вычислительной или сетевой среде, связанной с хранением. Этот совет заключается в регулярном резервном копировании хранилища во всех ваших системах. С серверными системами это должно быть просто, и нет необходимости обсуждать это дальше. Однако сетевые устройства — это совсем другое дело, потому что некоторые из них могут иметь встроенное хранилище SSD, но могут не предоставлять никакого доступа к своему хранилищу извне, за исключением, возможно, собственного авторизованного персонала службы поддержки поставщика. В таких случаях вам может потребоваться встроить какую-либо возможность балансировки нагрузки в том месте, где ваше устройство расположено в вашей сети, чтобы в случае неожиданного сбоя устройства его рабочая нагрузка могла быть обработана другим устройством в вашей сети. Но только не забывайте о важности резервного копирования везде, где это возможно.