Incident runbooks¶
Набор runbook-страниц для типовых инцидентов и recovery-сценариев.
Что здесь должно быть¶
- быстрые проверки первичных симптомов;
- безопасные шаги по стабилизации сервиса;
- ссылки на метрики, логи и дашборды;
- критерии, когда нужно эскалировать инцидент;
- post-incident действия и follow-up.
Принцип¶
Каждый runbook должен вести инженера от симптома к проверке гипотезы и дальше к безопасному восстановлению без лишней импровизации.