ドキュメント定義マトリクス

ドキュメント何を定義するか誰が使うか変更コスト最重要度
Runbook(障害対応手順書)アラート別の対応手順・判断基準・エスカレーション先・復旧手順運用チーム・インフラ担当(アプリチーム不在でも使える形)◎ 最重要
運用移管完了報告プロジェクト→運用チームへの正式引き継ぎ内容と双方の署名PM・PMO・運用チームリード・監査◎ 最重要
監視設計書・アラート閾値定義書監視対象・正常範囲・アラート閾値・通知先インフラ・運用チーム○ 重要
SLA管理記録SLA達成状況の月次記録・違反発生時の記録と対応PM・PMO・顧客・監査○ 重要
DB定期メンテナンス手順書統計情報更新・バキューム・定期バックアップ確認の手順DBA・運用チーム○ 重要
CVE管理記録(ライブラリ脆弱性)依存ライブラリの脆弱性スキャン結果・対応状況の記録セキュリティ・共通チーム○ 重要
容量管理レポート(月次)ディスク・DB・メモリの使用傾向と増加予測DBA・インフラ△ 記録
KPIモニタリング報告システムの価値提供状況(ユーザー数・応答率・エラー率等)PM・ビジネス側△ 記録

◎最重要ドキュメントの詳細

Runbook(障害対応手順書)

何を定義するか:各アラートが発火したときに「誰でも一定レベルの対応ができる」手順書。アラートの意味・ユーザーへの影響度・初動対応手順・エスカレーション先・復旧確認方法を障害種別ごとに定義する。

なぜ変更コストが高いか:Runbookが不完全な状態で運用に移行すると、アプリチームへの逆エスカレーションが頻発する。アプリチームが運用フェーズで別プロジェクトに移動した後は「作った人しか直せない」問題が深刻化する。

⚠️ Runbookは「障害が起きてから書く」では遅い

多くのプロジェクトでRunbookはリリース後に「後で書く」とされ、実際には書かれないまま運用チームに引き継がれる。Runbookはリリースフェーズの完了要件として定義し、リリース判定書の前提ドキュメントの一つに含めることで、必ず作成される状態を作る。

運用移管完了報告

何を定義するか:プロジェクトチームから運用チームへ引き継いだドキュメント・環境・アクセス権・連絡先・未解決課題の一覧。双方の責任者の署名で引き継ぎを正式に完了させる。

形骸化した場合の影響:口頭だけの引き継ぎでは「引き継いだ/引き継いでいない」が後から争点になる。特に未解決課題が明文化されていないと、運用開始後に「そんな問題があるとは聞いていない」が発生する。

Runbookの必須構成要素

セクション定義することなぜ必要か
アラート説明このアラートが何を意味するか・正常時との違い対応者がアラートの重大度を即座に判断できる
ユーザー影響このアラートが発火するとユーザーにどんな影響があるか対応優先度と広報対応の判断基準になる
初動手順最初の5分でやること(ログ確認場所・確認コマンド)経験の浅い担当者でも動けるようになる
復旧手順原因別の復旧ステップ(サービス再起動・フェイルオーバー等)復旧作業の手順ミスを防ぐ
エスカレーション自己解決できない場合の連絡先と判断基準・タイムアウト「いつ誰に電話するか」を事前に決めておく

💡 Runbookは「障害後に必ず更新する」ルールを作る

Runbookは一度作って終わりではない。実際の障害対応を経て「この手順では対応できなかった」「この情報が不足していた」という知見が蓄積する。障害クローズ後のポストモーテムにRunbook更新を必須プロセスとして組み込むことで、Runbookが実態に合い続ける。