Перейти к содержанию

Runbook

Когда использовать

Описать симптомы, триггеры и ситуации, при которых нужно открыть этот runbook.

Проверки до начала

  • убедиться, что есть доступы;
  • проверить влияние на пользователей;
  • зафиксировать контекст инцидента;
  • открыть метрики и логи.

Пошаговые действия

  1. Зафиксировать текущее состояние.
  2. Проверить гипотезу №1.
  3. Проверить гипотезу №2.
  4. Выполнить безопасное восстановление.
  5. Подтвердить восстановление и закрыть инцидент.

Ожидаемый результат

Описать, как выглядит успешное восстановление и какие признаки считать подтверждением.

Эскалация

  • когда эскалировать;
  • кому эскалировать;
  • какие данные приложить;
  • какие решения уже были опробованы.

Постмортем

  • что собрать в evidence;
  • какие ссылки приложить;
  • какие follow-up задачи открыть.