Управление ИТ-проблемами: ваше руководство к успеху
ИТ-инциденты имеют непосредственную причину и скрытую причину. Например, предположим, что ваши серверы приложений выходят из строя после обновления системы. Ваша ИТ-команда находит ошибку в ваших файлах конфигурации и исправляет ее. Но что вызвало ошибку в первую очередь? Вот тут и приходит на помощь управление ИТ-проблемами.
Ключевой частью управления ИТ-инцидентами является выяснение того, что произошло в первую очередь, и как это лучше всего решить. Прежде всего, стремление выяснить первопричину этих проблем — это именно то, для чего существует управление проблемами. Без надлежащего плана ваша компания будет страдать от повторяющихся проблем, которые могут стоить вам денег или потенциальных клиентов.
В этой статье я подробно объясню процесс управления ИТ-проблемами. Мы рассмотрим преимущества, методы реализации и способы измерения успеха. Во-первых, давайте начнем с определения.
Что такое управление ИТ-проблемами?
Управление ИТ-проблемами — это системный подход к выявлению причин текущих или потенциальных ИТ-инцидентов. В целом, цель состоит в том, чтобы устранить основную причину и предотвратить повторение проблемы. Если это неизбежно, оно направлено на минимизацию воздействия . Этот процесс включает в себя весь жизненный цикл проблемы от диагностики до решения. Он включает в себя следующие шаги:
- Выявляйте, классифицируйте и фокусируйтесь на проблемах и рисках
- Исследуйте и выявляйте первопричины
- Найдите лучший процесс исправления
- Предложите обходной путь и продолжите расследование, если нет возможности исправить ошибку.
- Устраните проблему или риск, если доступно решение
- Документирование шагов по устранению неполадок и исправлений для управления знаниями

Преимущества управления проблемами
Преимущества управления проблемами включают повышение удовлетворенности клиентов и снижение затрат на ИТ. Например, группы управления проблемами:
- Решите основные проблемы, поэтому частота инцидентов уменьшается
- Тратьте больше времени на разработку новых функций вместо решения старых проблем
- Сэкономьте тысячи долларов на потерях из-за простоя
- Повышение доверия клиентов за счет повышения доступности и качества услуг
Управление проблемами является частью структуры библиотеки инфраструктуры информационных технологий (ITIL®). По правде говоря, это один из нескольких лучших способов предоставления высококачественных ИТ-услуг. Давайте посмотрим, как управление проблемами сравнивается с другими практиками ITIL.
Разница между управлением ИТ-проблемами и управлением инцидентами

ИТ-инциденты — это незапланированные события, которые нарушают доставку ИТ. Например, медленно работающие серверы, сбои приложений и кибератаки — все это ИТ-инциденты. И наоборот, проблемы — это системные или технологические сбои, вызывающие ИТ-инциденты.
Управление происшествиями
Управление инцидентами — это реакция на ИТ-инциденты для восстановления нормальной работы. Впоследствии менеджеры по инцидентам следуют заранее определенному процессу для разрешения инцидентов и минимизации влияния на бизнес. Например, в случае атаки вредоносного ПО команда может:
- Отключить зараженный сервер
- Подготовьте резервный сервер, чтобы операции возобновились в обычном режиме.
- Анализ и выявление заражения вредоносным ПО
- Удалить зараженные файлы
- Восстановить сервер в исходное состояние
Управление инцидентами против управления проблемами
Учитывая эти моменты, управление инцидентами и проблемами кажутся похожими, поскольку оба они сосредоточены на проблемах ИТ. В целом, они хотят обеспечить последовательное предоставление ИТ-услуг. Тем не менее, эти два подхода очень разные. Управление инцидентами направлено на немедленное исправление, в то время как управление проблемами ищет долгосрочное решение.
С одной стороны, диспетчеры инцидентов должны быстро решить проблему, чтобы восстановить работу ИТ. И наоборот, менеджерам по проблемам потребуется больше времени для анализа данных. Может даже потребоваться несколько инцидентов, прежде чем они смогут полностью определить причину . В любом случае менеджеры по проблемам не просто устраняют инцидент. Вместо этого они устанавливают процесс, который предотвращает повторение инцидента.
| Управление происшествиями | Управление проблемами | |
| Цель | Решайте ИТ-инциденты, чтобы восстановить предоставление услуг. | Найдите первопричину ИТ-инцидентов, чтобы предотвратить их повторение |
| Фокус | Краткосрочная цель — разрешение неотложного ИТ-инцидента. | Долгосрочная цель — изучение данных и устранение основной причины инцидента. |
| Пример | Сбои сервера — исправьте ошибку конфигурации и восстановите сервер. | Сбои сервера — исправление сбоев системы или процессов, вызвавших ошибку конфигурации. |
| Повторные инциденты | Следуйте стандартной настройке шагов, чтобы последовательно реагировать на повторяющиеся инциденты. | Анализируйте тенденции и закономерности повторяющихся инцидентов, чтобы предотвратить их повторение |
Самая большая разница между этими двумя типами заключается в продолжительности времени, необходимого для решения проблемы. Управление инцидентами пытается решить проблему и перейти к следующей, в то время как управление проблемами пытается исправить то, что ее вызвало. В то же время организации должны внедрить оба процесса, чтобы обеспечить обслуживание клиентов и операционную эффективность. Имея это в виду, давайте рассмотрим детали реализации этого процесса!
Как вы можете внедрить управление ИТ-проблемами?

Управление проблемами имеет два метода реализации. В то время как один подход является реактивным, другой является проактивным. Учитывая это, давайте рассмотрим оба решения.
1. Реактивное управление проблемами
Аналогичным образом реактивное управление проблемами представляет собой скоординированный ответ на существующие проблемы. ИТ-инциденты. Это отличное место для начала, если вы уже следуете рекомендациям по управлению инцидентами. Один крупный инцидент или группа инцидентов запускает процесс управления проблемами.
Стандартные методы, используемые в реактивном управлении проблемами, включают:
Техника роения
Различные команды, такие как эксплуатация, разработка и безопасность, встречаются после инцидента. Эти команды подробно изучат все аспекты инцидента, чтобы понять ситуацию.
Хронологический анализ
Группа управления проблемами изучает журналы, файлы конфигурации и другие соответствующие данные. Они идентифицируют упорядоченную по времени серию событий до инцидента. Таким образом, они возвращаются в прошлое, чтобы раскрыть первопричину.
Анализ пяти «почему»
Группа управления проблемами изучает инцидент и определяет первый вопрос «почему». Когда команда находит ответ на вопрос, она переформулирует его как другое почему. Тем временем команда будет повторять это, пока не выяснит причину. Взгляните на этот пример пяти почему в действии:

2. Упреждающее управление проблемами
Упреждающее управление проблемами — это непрерывный процесс постоянного улучшения. Команды определяют потенциальные риски для обслуживания, чтобы ограничить будущие инциденты. Они анализируют предупреждения, уязвимости и инциденты конкурентов, чтобы предотвратить будущие проблемы.
Проактивные методы управления проблемами включают в себя:
Оценка рисков
Оценка риска представляет собой систематический процесс оценки потенциальных рисков. Во-первых, команды выявляют угрозы и отслеживают их в базе данных рисков. Они также оценивают вероятность возникновения риска и его потенциальное воздействие. Затем они классифицируют риски на низкие, средние и высокие категории. Наконец, они берут предупредительные меры по предотвращению инцидентов с высокой степенью риска.
Отображение сходства
Картирование сходства — это метод мозгового штурма для упреждающего управления проблемами. Все участники из разных команд, таких как ИТ, DevOps и безопасность, собираются вместе. Они делятся идеями и мыслями о потенциальных рисках. Имея это в виду, менеджер группирует общие утверждения, чтобы найти область значительного риска . Затем все команды согласовывают задачи, чтобы ограничить риски.

Анализ тренда
Анализ тенденций рассматривает прошлые инциденты для выявления будущих проблем. Например, ИТ-группа отмечает, что приложение аварийно завершает работу каждый декабрь. Поэтому они предпринимают активные шаги с июля, чтобы предотвратить крах в декабре следующего года.
Реактивное и проактивное управление проблемами
Реактивный подход ждет проблемы, а затем исправляет ее. Это можно сравнить с установкой охранной сигнализации после ограбления вашего дома. Наоборот, проактивное управление проблемами определяет стратегии предотвращения возникновения проблем. Это как установить систему безопасности умного дома до того, как произойдет ограбление.
Сказав это, я хотел бы отметить, что нет идеального подхода. Таким образом, организации должны внедрить обе стратегии комплексного управления проблемами. Вот большое резюме различий:
| Реактивное управление | Проактивное управление | |
| Подход | Решить проблемы, вызывающие существующие инциденты | Примите меры для предотвращения будущих проблем |
| Цель | Уменьшить частоту и повторение инцидентов | Обеспечить постоянное улучшение всей системы |
| Курок | Существующие инциденты | Потенциальные риски |
| Реализация | Проанализируйте первопричину инцидента, а затем устраните ее. | Анализируйте будущие риски и заранее вносите изменения |
После того как ваша организация внедрила управление проблемами, следующим шагом будет измерение его успеха. Чтобы проиллюстрировать это, давайте посмотрим на некоторые показатели, которые вы можете отслеживать!
Как вы можете измерить успех вашего процесса управления ИТ-проблемами?
Ключевые показатели эффективности (KPI) помогают измерить эффективность управления проблемами. KPI уникальны для каждой организации, и члены вашей команды могут выбрать те, которые принесут им наибольшую пользу. В приведенной ниже таблице приведены некоторые распространенные примеры:
| КПЭ | Описание | Индикатор |
| Среднее время начала | Среднее время, необходимое для начала процесса решения проблемы | Более низкие значения показывают приверженность команды управлению проблемами |
| Количество незавершенных задач | Общее количество проблем, выявленных командой, но не предпринятых для их решения. | Большие значения показывают плохое состояние системы, высокую нагрузку на команду и низкую приверженность управлению проблемами. |
| Среднее время решения проблемы | Среднее время, которое требуется от выявления проблемы до окончательного решения | Высокие значения означают более высокую сложность проблемы и более низкую производительность команды. |
| Инциденты/проблемы | Общее количество инцидентов, связанных с одной проблемой | Высокие значения указывают на более высокий приоритет и сложность проблемы. |
| Процент решенных проблем | (Решенные проблемы/всего проблем)*100 | Высокие значения указывают на повышенную эффективность команды, заинтересованность и работоспособность системы. |
Если ваша организация только начинает свою деятельность, я рекомендую настроить процесс регистрации проблем и начать с анализа первопричин. Снижение среднего времени для начала и незавершенных задач — это первый шаг. Затем, по мере развития вашего процесса управления проблемами, улучшатся и другие показатели.
Имея это в виду, подведем итоги.
Заключительные слова
Повторяющиеся проблемы с ИТ могут вызвать огромную нагрузку на вашу компанию и вашу команду. Использование управления ИТ-проблемами дает вам структурированный подход к уменьшению этих проблем. Если вы внедрите реактивный и проактивный подходы, вы всегда будете на шаг впереди ошибок. Без него вы будете играть в догонялки с ИТ-инцидентами до скончания века.
Я надеюсь, что эта статья поможет вам в эффективном управлении проблемами. Есть ли у вас еще вопросы? Ознакомьтесь с разделами часто задаваемых вопросов и ресурсов для получения дополнительной информации!
Часто задаваемые вопросы
Кто такой менеджер проблем?
Управление проблемами требует совместной работы нескольких команд над задачами. Это может быть анализ, общение, документация и многое другое. Организации назначают проблемных менеджеров для координации задач. В частности, они создают, обновляют, расставляют приоритеты и назначают задачи разным командам. Тем временем менеджер проблем наблюдает за всеми аспектами жизненного цикла проблемы.
Каков жизненный цикл проблемы?
В управлении проблемами вы повторяете набор шагов для каждой проблемы. Вы определяете проблему, анализируете ее, предлагаете обходные пути или решаете ее. Затем процесс управления проблемами повторяется до тех пор, пока вы не уменьшите число критических инцидентов. При таком жизненном цикле предоставление услуг и эффективность системы со временем улучшаются.
Каковы три этапа управления проблемами?
Структура ITIL описывает три этапа: идентификацию проблемы, контроль проблем и контроль ошибок. Сначала вы определяете проблему и записываете ее. Во-вторых, вы анализируете разные подходы к решению проблемы. Наконец, вы вносите системные изменения, чтобы решить проблему. Но вы обязательно минимизируете известные ошибки и управляете ими при внесении изменений.
Что такое известная ошибка?
В управлении проблемами термин «известная ошибка» указывает проблема без решения . Команда знает, что проблема существует, но не может решить ее навсегда. Поэтому вместо этого они находят обходной путь для решения проблемы, пока не найдут долгосрочное решение.
В конце концов, организации записывают известные ошибки в базу данных известных ошибок.
Что такое диаграмма почему-почему?
Диаграмма «почему-почему» — это наглядное представление процесса анализа проблемы. Он показывает карту или блок-схему, которая связывает вопрос «почему» со всеми возможными ответами. Вы рассматриваете каждый ответ как еще один вопрос «почему» и связываете его с дальнейшими ответами. Диаграмма «почему-почему» обычно имеет три или более уровней. Например, «сбой сервера → ошибка файла конфигурации → обновление вручную».