Сохранение серверного оборудования (Часть 4)

Опубликовано: 17 Марта, 2023

В первой статье этой серии мы сначала рассмотрели некоторые типы взвешенных в воздухе твердых частиц и то, как они могут повлиять на работоспособность серверных систем малого бизнеса, ПК и ноутбуков, используемых в бизнес-среде. После этого мы рассмотрели некоторые решения, которые вы можете реализовать, чтобы гарантировать, что такие системы не будут повреждены переносимыми по воздуху твердыми частицами. К сожалению, такого рода защитные меры не всегда работают так, как ожидалось, поэтому во второй статье этой серии мы рассмотрели некоторые советы и рекомендации, которые я почерпнул за годы от своих коллег, а также от читателей наш еженедельный информационный бюллетень WServerNews.com, в котором они описывали, как можно безопасно очистить сервер или клиентскую систему, забитую пылью, волосами и другими вещами, плавающими в воздухе типичного офиса-кабинки, серверной комнаты или грязного гостиничного номера. Затем в третьей статье мы начали рассматривать проблему перегрева применительно к серверам, ПК и ноутбукам, используемым в бизнес-среде. В этой третьей статье мы рассмотрели некоторые причины перегрева системного оборудования и определили некоторые проблемы, которые могут возникнуть в результате перегрева системного оборудования. В этой статье мы продолжаем тему перегрева, и мы рассмотрим инструменты различных поставщиков для определения перегрева системного оборудования, а также несколько сторонних инструментов, которые вы можете использовать для определения перегрева систем. Наконец, мы опишем, что вы можете сделать, когда ваше системное оборудование перегревается.

Инструменты поставщиков для определения перегрева системного оборудования

Если ваш сервер, ПК или ноутбук был приобретен у крупного поставщика, такого как Dell или HP, у вас должен быть доступ к инструментам поставщика, которые помогут вам определить, не перегревается ли оборудование вашей системы. Например, Dell предоставляет различные онлайновые и загружаемые диагностические инструменты и тесты, которые вы можете использовать или запустить, чтобы проверить, не перегревается ли ваша система. Эта страница в базе знаний Dell предоставляет доступ к онлайн-инструменту диагностики, который можно запустить на ПК или ноутбуке под управлением Windows. Также на этой странице вы найдете информацию об автономных диагностических тестах, которые системы Dell могут выполнять для диагностики и выявления проблем, связанных с оборудованием, которые могут помешать успешной загрузке Windows на вашем ПК или ноутбуке.

Для серверов Dell, управляемых с помощью Dell OpenManage, решения для управления оборудованием, которое помогает администраторам управлять серверами Dell PowerEdge, вы можете использовать OpenManage Server Administrator в операционной системе хоста для просмотра состояния вентилятора и температуры серверной системы. Для удаленно управляемых серверов Dell PowerEdge вы можете использовать графический интерфейс интегрированной карты удаленного доступа Dell (iDRAC) для аналогичного просмотра такой информации, а также для принятия мер по исправлению положения, когда это возможно.

Перегрев и другие потенциальные проблемы со здоровьем, связанные с серверами HP, можно отслеживать и выявлять с помощью HPE Integrated Lights Out (iLO) — решения, доступного от Hewlett Packard Enterprise, которое использует встроенную технологию управления серверами, встроенную в серверы HP ProLiant и BladeSystem. Версия 4 iLO позволяет вам просматривать подробную информацию о состоянии ваших серверов через любой веб-браузер или даже на вашем смартфоне с помощью мобильного приложения iLO, которое можно загрузить для платформы Android из Google Play Store и для iPhone из Apple iTunes. iLO от HP, по сути, является аналогом решения HP iDRAC от Dell.

У HP также есть другие решения, которые вы можете использовать для мониторинга температуры и скорости вращения вентиляторов серверных систем, включая те, которые работают под управлением Linux вместо Windows Server. Например, если у вас есть пакет поддержки HP ProLiant, установленный на сервере ProLiant, на котором установлена Linux, вы можете использовать команду hpasmcli, запустив /sbin/hpasmcli -s «show temp», чтобы отобразить различные точки температуры на вашем сервере. включая температуру процессора, температуру карты памяти и температуру окружающей среды сервера. У Марка Неллеманна есть пример скрипта, который он написал для синтаксического анализа вывода команды hpasmcli в этом посте в своем блоге.

Сторонние инструменты для определения перегрева системного оборудования

Популярным сторонним решением для мониторинга не только температуры, но и других критических аспектов оборудования вашей серверной системы является решение, доступное на ServersCheck, открытом, масштабируемом, модульном решении для мониторинга серверов. ServersCheck — это комплексное решение для мониторинга серверной системы, которое включает в себя базовые блоки, платформу мониторинга и широкий спектр датчиков, которые могут отслеживать факторы окружающей среды (например, температуру), а также питание и безопасность. ServersCheck можно внедрить и использовать как автономное решение для мониторинга серверов, или вы можете интегрировать его в свою систему управления системами или даже в систему управления зданием. Например, чтобы использовать ServersCheck для мониторинга температуры конкретного блейд-сервера в системе, монтируемой в стойку, можно прикрепить USB-датчик температуры к стене корпуса в непосредственной близости от блейд-сервера. ServersCheck используется несколькими крупными компаниями, с которыми я контактировал, и ряд моих коллег, работающих в сфере ИТ-консалтинга и системного администрирования, порекомендовали их решение.

Еще одно популярное решение для мониторинга температуры серверных систем — решение SolarWindws. Например, вы можете заблаговременно отслеживать серверы HP на предмет возможных проблем с перегревом, а также проблем, связанных со скоростью вращения вентилятора, источником питания и т. д., с помощью SolarWinds Server & Application Monitor.

Поскольку сегодня большинство процессоров имеют встроенные функции для мониторинга температуры и других параметров, таких как напряжение и скорость вращения вентилятора, а большинство жестких дисков включают поддержку SMART, которая позволяет отслеживать температуру жесткого диска, вы можете просто использовать специальную утилиту вместо полная система мониторинга систем, чтобы внимательно следить за температурой вашего сервера, ПК или ноутбука. SpeedFan — это одна из популярных программ, которая позволяет вам просматривать температуру вашей материнской платы и диска, просматривать напряжение и скорость вращения вентилятора, изменять скорость вращения вентилятора и многое другое.

Что вы можете сделать, когда ваше системное оборудование перегревается

Первое, что вы должны сделать, конечно, если вы подозреваете, что странное поведение вашей системы является результатом перегрева, это устранить или устранить любые видимые прямые причины такого перегрева. Например, вы можете предпринять некоторые простые меры по исправлению положения, например переместить систему в более прохладное помещение, включить кондиционер в комнате или убрать устройство из-под прямых солнечных лучей. Или, если ваша проблема связана не с оборудованием или программным обеспечением, а с «программным обеспечением», вы можете подумать о том, чтобы отогнать кошку от сна на вашем сервере!

Есть также некоторые дополнительные шаги, которые вы можете выполнить, если вы приобрели свою систему у крупного поставщика, такого как Dell или HP, поскольку эти поставщики используют функции с поддержкой BIOS, которые позволяют регистрировать определенные аппаратные сбои в BIOS вашей системы. Например, если вы подозреваете, что ваша система Dell не загружается или не работает должным образом из-за перегрева, и вы уже предприняли все обычные меры по исправлению положения, как описано выше, начните с проверки журнала системных событий в BIOS уязвимой системы.. Некоторые сообщения, которые BIOS в системе Dell может отображать в результате перегрева, могут включать сообщения об ошибках, связанные с радиаторами, вентиляторами или температурой воздуха, например сообщение «Внимание! Датчик температуры воздуха не обнаружен».

Если ваша система вышла из строя из-за отказа аппаратного компонента, вам может потребоваться заменить этот компонент. В таких случаях обычно лучше всего обратиться в службу технической поддержки поставщика за помощью и описать проблему и шаги, которые вы уже предприняли, чтобы попытаться ее определить. К сожалению, из-за снижения качества технической поддержки из-за сокращения расходов поставщика специалист службы поддержки может попросить вас выполнить серию тестов, которые могут включать шаги, которые вы уже предприняли. Крупные клиенты, как правило, чувствуют себя здесь лучше всего, поскольку у них обычно достаточно рычагов воздействия на поставщика, чтобы быстро поднять проблему с уровня 1 на уровень 2 или 3 персонала поддержки, который более отзывчив и осведомлен.

Если ваши системы неожиданно выключились или вам пришлось выполнить принудительное завершение работы (т. е. вытащить вилку из розетки) из-за зависания операционной системы, вам следует выполнить следующие шаги, прежде чем пытаться перезапустить систему:

  1. Отсоедините все внешние кабели (включая кабель питания).
  2. Удерживайте нажатой кнопку питания не менее 5 секунд, чтобы вся оставшаяся внутренняя энергия (например, в конденсаторах) рассеялась).
  3. Снова подключите кабель питания и любые другие внешние кабели.
  4. Перезапустите систему.

Наконец, обратите внимание, что если ваша система случайно зависает или выключается, и вы определили, что программное обеспечение BIOS устарело, не пытайтесь прошивать BIOS обновленным программным обеспечением, пока не будет определена и устранена причина зависания/отключения.. И если ваш BIOS устарел более чем на одну версию, лучше всего применять каждое отсутствующее обновление BIOS последовательно по порядку, то есть не перескакивать через несколько обновлений BIOS, иначе вы можете получить не загружаемый сервер.

  • Сохранение серверного оборудования (часть 3)