Runbook¶
Когда использовать¶
Описать симптомы, триггеры и ситуации, при которых нужно открыть этот runbook.
Проверки до начала¶
- убедиться, что есть доступы;
- проверить влияние на пользователей;
- зафиксировать контекст инцидента;
- открыть метрики и логи.
Пошаговые действия¶
- Зафиксировать текущее состояние.
- Проверить гипотезу №1.
- Проверить гипотезу №2.
- Выполнить безопасное восстановление.
- Подтвердить восстановление и закрыть инцидент.
Ожидаемый результат¶
Описать, как выглядит успешное восстановление и какие признаки считать подтверждением.
Эскалация¶
- когда эскалировать;
- кому эскалировать;
- какие данные приложить;
- какие решения уже были опробованы.
Постмортем¶
- что собрать в evidence;
- какие ссылки приложить;
- какие follow-up задачи открыть.