Резюме
Это пример применения методологии на основе открытых отраслевых данных. Цифры рассчитаны по публичным источникам — ваши результаты и декомпозиция процесса на блоки будут зависеть от конкретных условий.
Ситуация. SRE-команда 3 человека. 100–150 алертов в месяц. PagerDuty, Prometheus, Grafana, ELK stack.
Проблема. Усталость от шума: SRE ночью просыпается от false alert → burn-out и снижение внимания к реальным проблемам Потеря критических сигналов: 70% шума означает, что критические алерты тонут в потоке → реакция замедляется Медленная RCA: даже когда инцидент реальный, SRE тратит 30–60 мин на сбор логов из Prometheus/Grafana/ELK и построение гипотезы
Результат анализа. 2 блоков — в 🟢 Автоматизация (EPOCH 1–2). 1 блок — в 🟡 Усиление (EPOCH 3). 2 блоков — в 🟠 Коллаборация (EPOCH 4). Экономия — до 712 800 ₽ (Москва), ROI 500%.
Карта процесса
Процесс разбит на 5 блоков.
- 1 Классифицировать алерты по типу и критичности Автоматизация
- 2 Извлечь контекст инцидента из логов и метрик Автоматизация
- 3 Провести быстрый RCA по известным паттернам Усиление
- 4 Принять решение об эскалации или самостоятельном устранении Коллаборация
- 5 Провести post-incident анализ и задокументировать выводы Коллаборация
Итого: 2 шага в 🟢 Автоматизация (EPOCH 1–2), 1 шаг в 🟡 Усиление (EPOCH 3), 2 шага в 🟠 Коллаборация (EPOCH 4).
Проверка готовности
Все четыре ответа должны быть «Да» — тогда можно переходить к внедрению.
- Может ли SRE-команда проверить результат классификации (ложное срабатывание или реальный инцидент) по историческим данным за неделю?
- Инструменты интеграции с PagerDuty и Slack доступны за 1–2 недели?
- Руководство поддерживает внедрение ИИ в процесс управления инцидентами?
- Команда осознаёт, что долгосрочное делегирование классификации может снизить её способность выявлять новые паттерны инцидентов?
Анализ
Таблица блоков
EPOCH (MIT Sloan, Loaiza & Rigobon, 2025) — шкала 1–5: насколько задача требует человеческого участия. Оценка = максимум из пяти параметров.
«Готовность ИИ-инструмента» определяет стартовый уровень контроля: чем больше опыта у команды с этой связкой «задача + инструмент», тем меньше проверок нужно с первого дня. Новый — команда ещё не делала этот тип задач с этим инструментом, уровень контроля 1. Пробуем — 1–2 цикла, результат ещё нестабильный, уровень 1–2. Стабильный — 3+ цикла без ошибок, уровень 2–3. Доказанный — 8+ циклов, уровень 3–4. Прочерк — блок не передаётся ИИ, оценка неприменима.
| # | Блок | Зависит от | EPOCH | Зона | Описание | Готовность ИИ-инструмента |
|---|---|---|---|---|---|---|
| 1 | Классифицировать алерты по типу и критичности | — | 2 | Автоматизация | Сравнить паттерн текущего алерта с базой известных ложных срабатываний. Можно ИИ с 85%+ точностью. | Стабильный |
| 2 | Извлечь контекст инцидента из логов и метрик | 1 | 2 | Автоматизация | Собрать из Prometheus/Grafana/ELK: графики, логи, версию приложения, последние развёртывания. Структурировать. | Стабильный |
| 3 | Быстрая RCA (шаблонная) | 1, 2 | 3 | Усиление | Для известных причин (ограничение rate limit, автомасштабирование, нехватка диска) — автоматическая инструкция восстановления. Нужна проверка. | Пробуем |
| 4 | Принять решение об эскалации или самостоятельном устранении | 3 | 5 | Человек | Требует суждения: влияет ли на пользователей, насколько срочно, нужно ли будить руководство. ИИ может предложить, но решает SRE. | Новый |
| 5 | Провести post-incident анализ и задокументировать выводы | 4 | 4 | Коллаборация | Написать Incident Report, определить стратегию предотвращения — требует знания домена. | Новый |
Почему такие оценки
| # | Блок | EPOCH | Обоснование |
|---|---|---|---|
| 1 | Классифицировать алерты по типу и критичности | 2 | Сравнение паттерна с базой известных случаев. Статистический метод, 85%+ точность. Суждение не требуется. |
| 2 | Извлечь контекст инцидента из логов и метрик | 2 | Механический сбор данных из Prometheus/Grafana/ELK. Структурирование информации. Интерпретация не требуется. |
| 3 | Быстрая RCA (шаблонная) | 3 | Для известных причин (ограничение rate limit, автомасштабирование) есть инструкция. Нужно убедиться, что выбран правильный паттерн. ИИ предлагает, SRE проверяет. |
| 4 | Принять решение об эскалации или самостоятельном устранении | 5 | Требует знания бизнеса: влияет ли на пользователей, насколько срочно, нужно ли будить руководство. ИИ может информировать, но решение только человека. |
| 5 | Провести post-incident анализ и задокументировать выводы | 4 | Требует анализа цепочки событий, выбора стратегии предотвращения. ИИ помогает собрать факты, но вывод делает SRE. |
Ограничения ChatGPT в этом процессе
- ChatGPT не имеет прямого доступа к Prometheus, Grafana или ELK — без интеграции он работает только с текстом, который ему передают вручную (Rootly, 2025)
- Классификация алертов требует знания исторических паттернов конкретной системы: без базы прошлых инцидентов ИИ не может отличить ложное срабатывание от реального (Incident.io, 2025)
- Решение об эскалации требует суждения (O=5): влияет ли на пользователей, нужно ли будить руководство — это бизнес-решение с последствиями, которые ИИ не оценивает (Rootly, 2025)
- Автоматическое восстановление (ремедиация) требует высокого суждения (O=4–5): неверное действие может усугубить инцидент — потолок автономии контролируемый (Incident.io, 2025)
Инструкции для передачи задач ИИ
Чтобы передать задачу ИИ, нужно описать три вещи: что подаёте на вход, что получаете обратно и как поймёте, что результат верный. Ниже — такое описание для каждого блока, который переходит к ИИ. Это можно передать разработчику или использовать как основу для промпта.
Классификация и контекст-сбор
- Классификация верна (сравнение с SRE-решением за прошлую неделю)
- Контекст полный и понятен
- Предложение действия соответствует серьёзности инцидента
- Пропуск реальной угрозы < 5% (критические алерты не пропущены)
Webhook от PagerDuty (алерт)
Классификация: Известный паттерн (ложное срабатывание) / Новый паттерн / Критический; Контекст: График Prometheus (последний 1 час), логи ELK (последние 30 минут), версия, последнее развёртывание; Предложенное действие: Отклонить (если ложное срабатывание) / Назначить инструкцию восстановления (если известный паттерн) / Уведомить SRE (если критический); Сообщение в Slack с информацией
Уровень 3 (авто-мониторинг) — ИИ классифицирует и отправляет в Slack, SRE проверяет информацию. Для ложных срабатываний: автоматическое отклонение с логированием.
Быстрая RCA для известных причин
- RCA соответствует паттернам прошлых инцидентов
- Инструкция восстановления работает (была протестирована)
- Оценка уверенности реалистична
- SRE согласен с гипотезой (2 недели валидации)
Алерт + контекст (графики, логи)
RCA-гипотеза: "Вероятная причина: ограничение rate limiter срабатало после развёртывания v2.14.3"; Инструкция восстановления: шаги для проверки и восстановления (перезагрузка, откат, масштабирование); Оценка уверенности: 95% / 70% / 30%; Сообщение в Slack с инструкцией восстановления + оценка уверенности
Уровень 2 (контролируемый) — ИИ предлагает RCA, SRE выполняет инструкцию восстановления, потом подтверждает или корректирует гипотезу.
Экономика
| Метрика | Часов в год | Экономия (₽/год) | Источник |
|---|---|---|---|
| Классификация алертов (25 ч/мес) | 300 ч | 540 000 ₽ | 📊 Расчёт (100 алертов/мес × 15 мин базово → 3 мин с ИИ) |
| RCA для известных паттернов (8 ч/мес) | 96 ч | 172 800 ₽ | 📊 Расчёт (1 критический/неделя × 30 мин экономии) |
| Итого | 396 ч | 712 800 ₽ |
Ставки рассчитаны по медианным данным HH.ru и ГородРабот.ру, начало 2026 года. Без учёта НДФЛ и страховых взносов (~30%).
| До (без ИИ) | Стало возможным (с ИИ) | Изменение охвата |
|---|---|---|
| MTTR 45–60 мин на неизвестный паттерн (требует ручного разбора) | MTTR 10–15 мин (ИИ предлагает RCA, SRE выполняет инструкцию) | −50% (сокращение времени восстановления) |
| 1–2 критических инцидента в месяц требуют вовлечения руководства | Те же инциденты решаются быстрее, снижается вероятность customer impact | +40% надёжность (меньше упущенных критических алертов) |
| Категория | Описание | Стоимость |
|---|---|---|
| Разовая настройка | Разовая настройка | 40 000 ₽ |
| Интеграция | Интеграция | 10 000 ₽ (разово) |
| Операционные | Операционные (API, подписки) | 10 000 ₽/мес |
| Обслуживание ИИ | Обслуживание ИИ | 3 600 ₽/мес |
| Разовая настройка | Разовые итого | 50 000 ₽ |
| Валидация | Валидация результатов | 5 000 ₽/мес |
| Компетенции | Поддержание компетенций | 900 ₽/мес |
Ловушка зависимости: чем дольше задача делегирована ИИ, тем сложнее замечать его ошибки. Раз в месяц — выполнить одну задачу вручную, чтобы сохранить способность оценивать результат. Подробнее — Мониторинг
Рекомендация
Начать с блока 🟢 Автоматизация Классификация и контекст-сбор (самый быстрый ROI, не требует запуска автоматических действий восстановления).
Почему этот блок:
- Наибольшая экономия времени (25+ часов/мес на шум)
- Низкий риск (ошибка ИИ только информирует, не действует)
- Быстрая валидация (можно проверить на прошлых алертах за неделю)
На что обратить внимание:
- ИИ-классификация пропускает критические алерты (пропуск реальной угрозы) → срочно откатить уровень автономности до 1 (ИИ только информирует)
- Известные паттерны меняются (новый сервис → новые алерты) → еженедельно обновлять базу примеров
Проверка рисков
| Вопрос | Ответ | Следствие |
|---|---|---|
| Ошибка необратима? (пропуск критического алерта = простой приложения) | Да | Сдвиг зоны: 🟢 Автоматизация → 🟡 Усиление (уровень 2 вместо 3); добавить еженедельную ручную проверку |
| Публика увидит результат без проверки? (SRE получит Slack-сообщение с классификацией) | Да | Добавить валидацию человеком перед отправкой в критических случаях |
| Грозит штраф, иск или вред? (нет — это внутренний процесс) | Нет | Зона без изменений |
Уровень контроля после запуска
Уровень автономности — насколько самостоятельно ИИ работает. Для каждого блока выбирается свой уровень в зависимости от цены ошибки.
Для 🟢 Автоматизация блоков (классификация, контекст): уровень 3 авто-мониторинга при условии еженедельного аудита пропущенных критических алертов. Для 🟡 Усиление блоков (RCA): уровень 2 контролируемый (SRE всегда проверяет перед исполнением инструкции). Критические эскалации остаются на уровне 1 — ИИ только предлагает, SRE принимает решение.
Если хотите разобрать свой процесс похожим образом — экспресс-диагностика займёт около 45 минут.