Резюме

Это пример применения методологии на основе открытых отраслевых данных. Цифры рассчитаны по публичным источникам — ваши результаты и декомпозиция процесса на блоки будут зависеть от конкретных условий.

Ситуация. SRE-команда 3 человека. 100–150 алертов в месяц. PagerDuty, Prometheus, Grafana, ELK stack.

Проблема. Усталость от шума: SRE ночью просыпается от false alert → burn-out и снижение внимания к реальным проблемам Потеря критических сигналов: 70% шума означает, что критические алерты тонут в потоке → реакция замедляется Медленная RCA: даже когда инцидент реальный, SRE тратит 30–60 мин на сбор логов из Prometheus/Grafana/ELK и построение гипотезы

Результат анализа. 2 блоков — в 🟢 Автоматизация (EPOCH 1–2). 1 блок — в 🟡 Усиление (EPOCH 3). 2 блоков — в 🟠 Коллаборация (EPOCH 4). Экономия — до 712 800 ₽ (Москва), ROI 500%.

Карта процесса

Процесс разбит на 5 блоков.

  • 1 Классифицировать алерты по типу и критичности Автоматизация
  • 2 Извлечь контекст инцидента из логов и метрик Автоматизация
  • 3 Провести быстрый RCA по известным паттернам Усиление
  • 4 Принять решение об эскалации или самостоятельном устранении Коллаборация
  • 5 Провести post-incident анализ и задокументировать выводы Коллаборация

Итого: 2 шага в 🟢 Автоматизация (EPOCH 1–2), 1 шаг в 🟡 Усиление (EPOCH 3), 2 шага в 🟠 Коллаборация (EPOCH 4).

Автоматизация ИИ делает, человек проверяет результат
Усиление ИИ создаёт первую версию результата, человек проверяет и дорабатывает
Коллаборация Человек создаёт результат сам, ИИ готовит данные по запросу
Человек Человек делает, ИИ максимум готовит вводные

Проверка готовности

Все четыре ответа должны быть «Да» — тогда можно переходить к внедрению.

  1. Может ли SRE-команда проверить результат классификации (ложное срабатывание или реальный инцидент) по историческим данным за неделю?
  2. Инструменты интеграции с PagerDuty и Slack доступны за 1–2 недели?
  3. Руководство поддерживает внедрение ИИ в процесс управления инцидентами?
  4. Команда осознаёт, что долгосрочное делегирование классификации может снизить её способность выявлять новые паттерны инцидентов?

Анализ

Таблица блоков

EPOCH (MIT Sloan, Loaiza & Rigobon, 2025) — шкала 1–5: насколько задача требует человеческого участия. Оценка = максимум из пяти параметров.

«Готовность ИИ-инструмента» определяет стартовый уровень контроля: чем больше опыта у команды с этой связкой «задача + инструмент», тем меньше проверок нужно с первого дня. Новый — команда ещё не делала этот тип задач с этим инструментом, уровень контроля 1. Пробуем — 1–2 цикла, результат ещё нестабильный, уровень 1–2. Стабильный — 3+ цикла без ошибок, уровень 2–3. Доказанный — 8+ циклов, уровень 3–4. Прочерк — блок не передаётся ИИ, оценка неприменима.

# Блок Зависит от EPOCH Зона Описание Готовность ИИ-инструмента
1 Классифицировать алерты по типу и критичности 2 Автоматизация Сравнить паттерн текущего алерта с базой известных ложных срабатываний. Можно ИИ с 85%+ точностью. Стабильный
2 Извлечь контекст инцидента из логов и метрик 1 2 Автоматизация Собрать из Prometheus/Grafana/ELK: графики, логи, версию приложения, последние развёртывания. Структурировать. Стабильный
3 Быстрая RCA (шаблонная) 1, 2 3 Усиление Для известных причин (ограничение rate limit, автомасштабирование, нехватка диска) — автоматическая инструкция восстановления. Нужна проверка. Пробуем
4 Принять решение об эскалации или самостоятельном устранении 3 5 Человек Требует суждения: влияет ли на пользователей, насколько срочно, нужно ли будить руководство. ИИ может предложить, но решает SRE. Новый
5 Провести post-incident анализ и задокументировать выводы 4 4 Коллаборация Написать Incident Report, определить стратегию предотвращения — требует знания домена. Новый
Почему такие оценки
# Блок EPOCH Обоснование
1 Классифицировать алерты по типу и критичности 2 Сравнение паттерна с базой известных случаев. Статистический метод, 85%+ точность. Суждение не требуется.
2 Извлечь контекст инцидента из логов и метрик 2 Механический сбор данных из Prometheus/Grafana/ELK. Структурирование информации. Интерпретация не требуется.
3 Быстрая RCA (шаблонная) 3 Для известных причин (ограничение rate limit, автомасштабирование) есть инструкция. Нужно убедиться, что выбран правильный паттерн. ИИ предлагает, SRE проверяет.
4 Принять решение об эскалации или самостоятельном устранении 5 Требует знания бизнеса: влияет ли на пользователей, насколько срочно, нужно ли будить руководство. ИИ может информировать, но решение только человека.
5 Провести post-incident анализ и задокументировать выводы 4 Требует анализа цепочки событий, выбора стратегии предотвращения. ИИ помогает собрать факты, но вывод делает SRE.
Ограничения ChatGPT в этом процессе
  • ChatGPT не имеет прямого доступа к Prometheus, Grafana или ELK — без интеграции он работает только с текстом, который ему передают вручную (Rootly, 2025)
  • Классификация алертов требует знания исторических паттернов конкретной системы: без базы прошлых инцидентов ИИ не может отличить ложное срабатывание от реального (Incident.io, 2025)
  • Решение об эскалации требует суждения (O=5): влияет ли на пользователей, нужно ли будить руководство — это бизнес-решение с последствиями, которые ИИ не оценивает (Rootly, 2025)
  • Автоматическое восстановление (ремедиация) требует высокого суждения (O=4–5): неверное действие может усугубить инцидент — потолок автономии контролируемый (Incident.io, 2025)

Инструкции для передачи задач ИИ

Чтобы передать задачу ИИ, нужно описать три вещи: что подаёте на вход, что получаете обратно и как поймёте, что результат верный. Ниже — такое описание для каждого блока, который переходит к ИИ. Это можно передать разработчику или использовать как основу для промпта.

Задача 1

Классификация и контекст-сбор

Критерии проверки
  • Классификация верна (сравнение с SRE-решением за прошлую неделю)
  • Контекст полный и понятен
  • Предложение действия соответствует серьёзности инцидента
  • Пропуск реальной угрозы < 5% (критические алерты не пропущены)
Вход

Webhook от PagerDuty (алерт)

Результат

Классификация: Известный паттерн (ложное срабатывание) / Новый паттерн / Критический; Контекст: График Prometheus (последний 1 час), логи ELK (последние 30 минут), версия, последнее развёртывание; Предложенное действие: Отклонить (если ложное срабатывание) / Назначить инструкцию восстановления (если известный паттерн) / Уведомить SRE (если критический); Сообщение в Slack с информацией

Уровень автономности

Уровень 3 (авто-мониторинг) — ИИ классифицирует и отправляет в Slack, SRE проверяет информацию. Для ложных срабатываний: автоматическое отклонение с логированием.

Задача 2

Быстрая RCA для известных причин

Критерии проверки
  • RCA соответствует паттернам прошлых инцидентов
  • Инструкция восстановления работает (была протестирована)
  • Оценка уверенности реалистична
  • SRE согласен с гипотезой (2 недели валидации)
Вход

Алерт + контекст (графики, логи)

Результат

RCA-гипотеза: "Вероятная причина: ограничение rate limiter срабатало после развёртывания v2.14.3"; Инструкция восстановления: шаги для проверки и восстановления (перезагрузка, откат, масштабирование); Оценка уверенности: 95% / 70% / 30%; Сообщение в Slack с инструкцией восстановления + оценка уверенности

Уровень автономности

Уровень 2 (контролируемый) — ИИ предлагает RCA, SRE выполняет инструкцию восстановления, потом подтверждает или корректирует гипотезу.

Экономика

712 800 ₽
экономия в год (Москва)
500%
ROI
213 200 ₽
стоимость внедрения (год 1)
Метрика Часов в год Экономия (₽/год) Источник
Классификация алертов (25 ч/мес) 300 ч 540 000 ₽ 📊 Расчёт (100 алертов/мес × 15 мин базово → 3 мин с ИИ)
RCA для известных паттернов (8 ч/мес) 96 ч 172 800 ₽ 📊 Расчёт (1 критический/неделя × 30 мин экономии)
Итого 396 ч 712 800 ₽

Ставки рассчитаны по медианным данным HH.ru и ГородРабот.ру, начало 2026 года. Без учёта НДФЛ и страховых взносов (~30%).

До (без ИИ) Стало возможным (с ИИ) Изменение охвата
MTTR 45–60 мин на неизвестный паттерн (требует ручного разбора) MTTR 10–15 мин (ИИ предлагает RCA, SRE выполняет инструкцию) −50% (сокращение времени восстановления)
1–2 критических инцидента в месяц требуют вовлечения руководства Те же инциденты решаются быстрее, снижается вероятность customer impact +40% надёжность (меньше упущенных критических алертов)
Категория Описание Стоимость
Разовая настройка Разовая настройка 40 000 ₽
Интеграция Интеграция 10 000 ₽ (разово)
Операционные Операционные (API, подписки) 10 000 ₽/мес
Обслуживание ИИ Обслуживание ИИ 3 600 ₽/мес
Разовая настройка Разовые итого 50 000 ₽
Валидация Валидация результатов 5 000 ₽/мес
Компетенции Поддержание компетенций 900 ₽/мес

Ловушка зависимости: чем дольше задача делегирована ИИ, тем сложнее замечать его ошибки. Раз в месяц — выполнить одну задачу вручную, чтобы сохранить способность оценивать результат. Подробнее — Мониторинг

Рекомендация

Начать с блока 🟢 Автоматизация Классификация и контекст-сбор (самый быстрый ROI, не требует запуска автоматических действий восстановления).

Почему этот блок:

  • Наибольшая экономия времени (25+ часов/мес на шум)
  • Низкий риск (ошибка ИИ только информирует, не действует)
  • Быстрая валидация (можно проверить на прошлых алертах за неделю)

На что обратить внимание:

  • ИИ-классификация пропускает критические алерты (пропуск реальной угрозы) → срочно откатить уровень автономности до 1 (ИИ только информирует)
  • Известные паттерны меняются (новый сервис → новые алерты) → еженедельно обновлять базу примеров

Проверка рисков

Вопрос Ответ Следствие
Ошибка необратима? (пропуск критического алерта = простой приложения) Да Сдвиг зоны: 🟢 Автоматизация → 🟡 Усиление (уровень 2 вместо 3); добавить еженедельную ручную проверку
Публика увидит результат без проверки? (SRE получит Slack-сообщение с классификацией) Да Добавить валидацию человеком перед отправкой в критических случаях
Грозит штраф, иск или вред? (нет — это внутренний процесс) Нет Зона без изменений

Уровень контроля после запуска

Уровень автономности — насколько самостоятельно ИИ работает. Для каждого блока выбирается свой уровень в зависимости от цены ошибки.

Для 🟢 Автоматизация блоков (классификация, контекст): уровень 3 авто-мониторинга при условии еженедельного аудита пропущенных критических алертов. Для 🟡 Усиление блоков (RCA): уровень 2 контролируемый (SRE всегда проверяет перед исполнением инструкции). Критические эскалации остаются на уровне 1 — ИИ только предлагает, SRE принимает решение.

Если хотите разобрать свой процесс похожим образом — экспресс-диагностика займёт около 45 минут.