Инцидент-менеджмент и триаж

Резюме

Это пример применения методологии на основе открытых отраслевых данных. Цифры рассчитаны по публичным источникам — ваши результаты и декомпозиция процесса на блоки будут зависеть от конкретных условий.

Ситуация. SRE-команда 3 человека. 100–150 алертов в месяц. PagerDuty, Prometheus, Grafana, ELK stack.

Проблема. Усталость от шума: SRE ночью просыпается от false alert → burn-out и снижение внимания к реальным проблемам Потеря критических сигналов: 70% шума означает, что критические алерты тонут в потоке → реакция замедляется Медленная RCA: даже когда инцидент реальный, SRE тратит 30–60 мин на сбор логов из Prometheus/Grafana/ELK и построение гипотезы

Результат анализа. 2 блоков — в 🟢 Автоматизация (EPOCH 1–2). 1 блок — в 🟡 Усиление (EPOCH 3). 2 блоков — в 🟠 Коллаборация (EPOCH 4). Экономия — до 712 800 ₽ (Москва), ROI 500%.

Карта процесса

Процесс разбит на 5 блоков.

1 Классифицировать алерты по типу и критичности Автоматизация
2 Извлечь контекст инцидента из логов и метрик Автоматизация
3 Провести быстрый RCA по известным паттернам Усиление
4 Принять решение об эскалации или самостоятельном устранении Коллаборация
5 Провести post-incident анализ и задокументировать выводы Коллаборация

Итого: 2 шага в 🟢 Автоматизация (EPOCH 1–2), 1 шаг в 🟡 Усиление (EPOCH 3), 2 шага в 🟠 Коллаборация (EPOCH 4).

Автоматизация ИИ делает, человек проверяет результат

Усиление ИИ создаёт первую версию результата, человек проверяет и дорабатывает

Коллаборация Человек создаёт результат сам, ИИ готовит данные по запросу

Человек Человек делает, ИИ максимум готовит вводные

Проверка готовности

Все четыре ответа должны быть «Да» — тогда можно переходить к внедрению.

Может ли SRE-команда проверить результат классификации (ложное срабатывание или реальный инцидент) по историческим данным за неделю?
Инструменты интеграции с PagerDuty и Slack доступны за 1–2 недели?
Руководство поддерживает внедрение ИИ в процесс управления инцидентами?
Команда осознаёт, что долгосрочное делегирование классификации может снизить её способность выявлять новые паттерны инцидентов?

Анализ

Таблица блоков

EPOCH (MIT Sloan, Loaiza & Rigobon, 2025) — шкала 1–5: насколько задача требует человеческого участия. Оценка = максимум из пяти параметров.

«Готовность ИИ-инструмента» определяет стартовый уровень контроля: чем больше опыта у команды с этой связкой «задача + инструмент», тем меньше проверок нужно с первого дня. Новый — команда ещё не делала этот тип задач с этим инструментом, уровень контроля 1. Пробуем — 1–2 цикла, результат ещё нестабильный, уровень 1–2. Стабильный — 3+ цикла без ошибок, уровень 2–3. Доказанный — 8+ циклов, уровень 3–4. Прочерк — блок не передаётся ИИ, оценка неприменима.

#	Блок	Зависит от	EPOCH	Зона	Описание	Готовность ИИ-инструмента
1	Классифицировать алерты по типу и критичности	—	2	Автоматизация	Сравнить паттерн текущего алерта с базой известных ложных срабатываний. Можно ИИ с 85%+ точностью.	Стабильный
2	Извлечь контекст инцидента из логов и метрик	1	2	Автоматизация	Собрать из Prometheus/Grafana/ELK: графики, логи, версию приложения, последние развёртывания. Структурировать.	Стабильный
3	Быстрая RCA (шаблонная)	1, 2	3	Усиление	Для известных причин (ограничение rate limit, автомасштабирование, нехватка диска) — автоматическая инструкция восстановления. Нужна проверка.	Пробуем
4	Принять решение об эскалации или самостоятельном устранении	3	5	Человек	Требует суждения: влияет ли на пользователей, насколько срочно, нужно ли будить руководство. ИИ может предложить, но решает SRE.	Новый
5	Провести post-incident анализ и задокументировать выводы	4	4	Коллаборация	Написать Incident Report, определить стратегию предотвращения — требует знания домена.	Новый

Почему такие оценки

#	Блок	EPOCH	Обоснование
1	Классифицировать алерты по типу и критичности	2	Сравнение паттерна с базой известных случаев. Статистический метод, 85%+ точность. Суждение не требуется.
2	Извлечь контекст инцидента из логов и метрик	2	Механический сбор данных из Prometheus/Grafana/ELK. Структурирование информации. Интерпретация не требуется.
3	Быстрая RCA (шаблонная)	3	Для известных причин (ограничение rate limit, автомасштабирование) есть инструкция. Нужно убедиться, что выбран правильный паттерн. ИИ предлагает, SRE проверяет.
4	Принять решение об эскалации или самостоятельном устранении	5	Требует знания бизнеса: влияет ли на пользователей, насколько срочно, нужно ли будить руководство. ИИ может информировать, но решение только человека.
5	Провести post-incident анализ и задокументировать выводы	4	Требует анализа цепочки событий, выбора стратегии предотвращения. ИИ помогает собрать факты, но вывод делает SRE.

Ограничения ChatGPT в этом процессе

ChatGPT не имеет прямого доступа к Prometheus, Grafana или ELK — без интеграции он работает только с текстом, который ему передают вручную (Rootly, 2025)
Классификация алертов требует знания исторических паттернов конкретной системы: без базы прошлых инцидентов ИИ не может отличить ложное срабатывание от реального (Incident.io, 2025)
Решение об эскалации требует суждения (O=5): влияет ли на пользователей, нужно ли будить руководство — это бизнес-решение с последствиями, которые ИИ не оценивает (Rootly, 2025)
Автоматическое восстановление (ремедиация) требует высокого суждения (O=4–5): неверное действие может усугубить инцидент — потолок автономии контролируемый (Incident.io, 2025)

Инструкции для передачи задач ИИ

Чтобы передать задачу ИИ, нужно описать три вещи: что подаёте на вход, что получаете обратно и как поймёте, что результат верный. Ниже — такое описание для каждого блока, который переходит к ИИ. Это можно передать разработчику или использовать как основу для промпта.

Задача 1

Классификация и контекст-сбор

Критерии проверки

Классификация верна (сравнение с SRE-решением за прошлую неделю)
Контекст полный и понятен
Предложение действия соответствует серьёзности инцидента
Пропуск реальной угрозы < 5% (критические алерты не пропущены)

Вход

Webhook от PagerDuty (алерт)

Результат

Классификация: Известный паттерн (ложное срабатывание) / Новый паттерн / Критический; Контекст: График Prometheus (последний 1 час), логи ELK (последние 30 минут), версия, последнее развёртывание; Предложенное действие: Отклонить (если ложное срабатывание) / Назначить инструкцию восстановления (если известный паттерн) / Уведомить SRE (если критический); Сообщение в Slack с информацией

Уровень автономности

Уровень 3 (авто-мониторинг) — ИИ классифицирует и отправляет в Slack, SRE проверяет информацию. Для ложных срабатываний: автоматическое отклонение с логированием.

Задача 2

Быстрая RCA для известных причин

Критерии проверки

RCA соответствует паттернам прошлых инцидентов
Инструкция восстановления работает (была протестирована)
Оценка уверенности реалистична
SRE согласен с гипотезой (2 недели валидации)

Вход

Алерт + контекст (графики, логи)

Результат

RCA-гипотеза: "Вероятная причина: ограничение rate limiter срабатало после развёртывания v2.14.3"; Инструкция восстановления: шаги для проверки и восстановления (перезагрузка, откат, масштабирование); Оценка уверенности: 95% / 70% / 30%; Сообщение в Slack с инструкцией восстановления + оценка уверенности

Уровень автономности

Уровень 2 (контролируемый) — ИИ предлагает RCA, SRE выполняет инструкцию восстановления, потом подтверждает или корректирует гипотезу.

Экономика

712 800 ₽

экономия в год (Москва)

500%

ROI

213 200 ₽

стоимость внедрения (год 1)

Метрика	Часов в год	Экономия (₽/год)	Источник
Классификация алертов (25 ч/мес)	300 ч	540 000 ₽	📊 Расчёт (100 алертов/мес × 15 мин базово → 3 мин с ИИ)
RCA для известных паттернов (8 ч/мес)	96 ч	172 800 ₽	📊 Расчёт (1 критический/неделя × 30 мин экономии)
Итого	396 ч	712 800 ₽

Ставки рассчитаны по медианным данным HH.ru и ГородРабот.ру, начало 2026 года. Без учёта НДФЛ и страховых взносов (~30%).

До (без ИИ)	Стало возможным (с ИИ)	Изменение охвата
MTTR 45–60 мин на неизвестный паттерн (требует ручного разбора)	MTTR 10–15 мин (ИИ предлагает RCA, SRE выполняет инструкцию)	−50% (сокращение времени восстановления)
1–2 критических инцидента в месяц требуют вовлечения руководства	Те же инциденты решаются быстрее, снижается вероятность customer impact	+40% надёжность (меньше упущенных критических алертов)

Категория	Описание	Стоимость
Разовая настройка	Разовая настройка	40 000 ₽
Интеграция	Интеграция	10 000 ₽ (разово)
Операционные	Операционные (API, подписки)	10 000 ₽/мес
Обслуживание ИИ	Обслуживание ИИ	3 600 ₽/мес
Разовая настройка	Разовые итого	50 000 ₽
Валидация	Валидация результатов	5 000 ₽/мес
Компетенции	Поддержание компетенций	900 ₽/мес

Ловушка зависимости: чем дольше задача делегирована ИИ, тем сложнее замечать его ошибки. Раз в месяц — выполнить одну задачу вручную, чтобы сохранить способность оценивать результат. Подробнее — Мониторинг

Вопрос	Ответ	Следствие
Ошибка необратима? (пропуск критического алерта = простой приложения)	Да	Сдвиг зоны: 🟢 Автоматизация → 🟡 Усиление (уровень 2 вместо 3); добавить еженедельную ручную проверку
Публика увидит результат без проверки? (SRE получит Slack-сообщение с классификацией)	Да	Добавить валидацию человеком перед отправкой в критических случаях
Грозит штраф, иск или вред? (нет — это внутренний процесс)	Нет	Зона без изменений

Резюме

Карта процесса

Проверка готовности

Анализ

Таблица блоков

Инструкции для передачи задач ИИ

Классификация и контекст-сбор

Быстрая RCA для известных причин

Экономика

Рекомендация

Проверка рисков

Уровень контроля после запуска