Перейти к содержанию

Incident runbooks

Набор runbook-страниц для типовых инцидентов и recovery-сценариев.

Что здесь должно быть

  • быстрые проверки первичных симптомов;
  • безопасные шаги по стабилизации сервиса;
  • ссылки на метрики, логи и дашборды;
  • критерии, когда нужно эскалировать инцидент;
  • post-incident действия и follow-up.

Принцип

Каждый runbook должен вести инженера от симптома к проверке гипотезы и дальше к безопасному восстановлению без лишней импровизации.