Skip to content

インシデント対応手順

インシデント(障害、セキュリティ侵害など)が発生した際の対応手順を明確に定義することで、迅速かつ適切に対応できます。

なぜインシデント対応手順が重要なのか

Section titled “なぜインシデント対応手順が重要なのか”

問題のある状況:

- インシデント発生時に誰に連絡すればいいか分からない
- 対応手順が明確でない
- 情報が散在している
- 同じインシデントが繰り返される
- インシデント後の振り返りが行われない

影響:

  • インシデントの対応に時間がかかる
  • ユーザーへの影響が拡大する
  • チーム全体のストレスが増える
  • 同じ問題が繰り返される

インシデントの種類:

  • P0(緊急): サービスが完全に停止している、または重大なセキュリティ侵害
  • P1(高): サービスの主要機能が使用できない
  • P2(中): サービスの一部機能が使用できない
  • P3(低): 軽微な問題、影響範囲が限定的

例:

P0(緊急):
- 本番環境が完全にダウン
- データベースがクラッシュ
- セキュリティ侵害(個人情報漏洩など)
P1(高):
- 決済機能が使用できない
- ログイン機能が使用できない
- APIのレスポンスが極端に遅い(10秒以上)
P2(中):
- 一部のページが表示されない
- レポート機能が使用できない
- メール送信が失敗する
P3(低):
- UIの表示が崩れている
- 軽微なバグ
- パフォーマンスの軽微な劣化

ステップ1: 検知

  • 監視ツールからのアラート: CloudWatch、DataDog、Sentryなど
  • ユーザーからの報告: サポートチケット、Slack、メール
  • チームメンバーからの報告: 開発中に発見

ステップ2: トリアージ

  • 優先度の決定: P0、P1、P2、P3のいずれかに分類
  • 影響範囲の確認: どのユーザー、どの機能に影響があるか
  • 対応者の決定: 誰が対応するか

ステップ3: 対応

  • 原因の特定: ログの確認、メトリクスの確認
  • 一時的な対応: ロールバック、サービス停止、トラフィックの制限
  • 恒久的な対応: バグ修正、インフラの修正

ステップ4: 復旧確認

  • 動作確認: サービスが正常に動作しているか確認
  • 監視: メトリクスが正常に戻っているか確認
  • ユーザーへの通知: インシデントが解決したことを通知

ステップ5: 振り返り

  • インシデントレポートの作成: 原因、対応、今後の対策を記録
  • 振り返り会議: チーム全体で振り返り
  • 改善アクション: 再発防止のためのアクションを決定

Slackチャネル:

  • #incident: インシデント対応専用チャネル
  • #incident-p0: P0インシデント専用チャネル
  • #monitoring: 監視アラート専用チャネル

通知ルール:

  • P0: 全員に通知、電話での呼び出し
  • P1: オンコール担当者に通知
  • P2: 該当チームに通知
  • P3: 該当チームに通知(緊急ではない)

オンコール担当者の役割:

  • インシデントの初動対応
  • エスカレーションの判断
  • インシデントレポートの作成

オンコールのローテーション:

  • 週単位でローテーション
  • 2名以上でオンコール(プライマリ、セカンダリ)
  • オンコールカレンダーで管理

オンコールの報酬:

  • オンコール手当の支給
  • オンコール後の休暇の提供

3. インシデントレポートのテンプレート

Section titled “3. インシデントレポートのテンプレート”
# インシデントレポート
## 基本情報
- **インシデントID**: INC-2024-001
- **発生日時**: 2024年3月15日 14:30 JST
- **検知日時**: 2024年3月15日 14:35 JST
- **解決日時**: 2024年3月15日 15:45 JST
- **影響時間**: 1時間15分
- **優先度**: P1(高)
- **対応者**: 田中、佐藤
## 影響範囲
- **影響を受けたサービス**: 決済API
- **影響を受けたユーザー数**: 約500名
- **影響を受けた機能**: 決済処理
## 原因
- **根本原因**: データベース接続プールの枯渇
- **直接原因**: 大量のリクエストによる接続プールの枯渇
- **根本原因の詳細**:
- 接続プールサイズが適切に設定されていなかった
- 接続の適切なクローズが行われていなかった
## 対応内容
1. **14:35**: インシデント検知(監視アラート)
2. **14:40**: 原因の特定(データベース接続プールの枯渇)
3. **14:45**: 一時的な対応(接続プールサイズの増加)
4. **15:00**: サービス復旧確認
5. **15:30**: 恒久的な対応(接続管理の改善)
## 今後の対策
- [ ] 接続プールサイズの適切な設定
- [ ] 接続の適切なクローズの実装
- [ ] 接続プールの監視アラートの設定
- [ ] 負荷テストの実施
## 学び
- 接続プールの監視が不十分だった
- 負荷テストが不足していた
- インシデント対応の手順が明確でなかった

インシデント対応のベストプラクティス

Section titled “インシデント対応のベストプラクティス”
  • 初動対応: 5分以内に初動対応を開始
  • エスカレーション: 30分以内に解決しない場合はエスカレーション
  • コミュニケーション: 定期的に状況を共有
  • ステータスページ: ユーザー向けのステータスページを更新
  • 内部コミュニケーション: Slack、メールで状況を共有
  • ドキュメント: インシデントレポートを記録
  • 振り返り会議: インシデント解決後1週間以内に実施
  • 改善アクション: 具体的な改善アクションを決定
  • フォローアップ: 改善アクションの進捗を確認

インシデント対応手順:

  • インシデントの定義: P0、P1、P2、P3の優先度分類
  • 対応の流れ: 検知→トリアージ→対応→復旧確認→振り返り
  • 実践: インシデント対応チャネル、オンコール制度、インシデントレポート
  • ベストプラクティス: 迅速な対応、情報の共有、振り返り

適切なインシデント対応手順により、迅速かつ適切にインシデントに対応できます。

障害時・プロジェクト炎上・遅延時の報告方法

Section titled “障害時・プロジェクト炎上・遅延時の報告方法”

障害やプロジェクトの炎上、遅延が発生した際の報告方法を明確に定義することで、適切な対応とエスカレーションが可能になります。

問題のある状況:

- 障害が発生したが、報告が遅れた
- プロジェクトが遅延しているが、誰も気づいていない
- 報告内容が不明確で、対応が遅れる
- エスカレーションが適切に行われず、問題が拡大する
- 報告先が不明確で、適切な判断ができない

影響:

  • 問題の対応が遅れる
  • 影響範囲が拡大する
  • ステークホルダーからの信頼が失われる
  • チーム全体のストレスが増える
  • プロジェクトの失敗リスクが高まる

即座に報告すべき状況:

  • P0(緊急): サービスが完全に停止している
  • P1(高): サービスの主要機能が使用できない
  • セキュリティ侵害: 個人情報漏洩、不正アクセスなど
  • データ損失: データの消失、破損など

報告のタイムライン:

P0(緊急):
- 検知後5分以内: 初動報告(Slack、電話)
- 検知後15分以内: 詳細報告(メール、ドキュメント)
- 検知後30分以内: ステークホルダーへの報告
P1(高):
- 検知後15分以内: 初動報告
- 検知後30分以内: 詳細報告
- 検知後1時間以内: ステークホルダーへの報告
P2(中):
- 検知後1時間以内: 報告
- 定期的な更新: 状況が変化した場合
P3(低):
- 定期的な報告: 日次、週次レポートに含める

報告先の階層:

レベル1: チームリーダー、プロジェクトマネージャー
↓(エスカレーション)
レベル2: 部門長、CTO
↓(エスカレーション)
レベル3: 経営層、CEO

報告先の決定基準:

  • P0(緊急): レベル1 → レベル2 → レベル3(必要に応じて)
  • P1(高): レベル1 → レベル2
  • P2(中): レベル1
  • P3(低): 定期的な報告

即座の報告(Slack、電話):

【緊急】障害発生報告
[P0/P1/P2/P3] 障害が発生しました
■ 発生日時: 2024年3月15日 14:30 JST
■ 影響範囲: 決済API
■ 影響ユーザー数: 約500名
■ 現在の状況: 原因調査中
■ 対応者: 田中、佐藤
■ 次の更新: 15分後
詳細は後ほど共有します。

詳細報告(メール、ドキュメント):

# 障害報告書
## 基本情報
- **障害ID**: INC-2024-001
- **発生日時**: 2024年3月15日 14:30 JST
- **検知日時**: 2024年3月15日 14:35 JST
- **報告日時**: 2024年3月15日 14:40 JST
- **優先度**: P1(高)
- **報告者**: 田中
- **対応者**: 田中、佐藤
## 影響範囲
- **影響を受けたサービス**: 決済API
- **影響を受けたユーザー数**: 約500名
- **影響を受けた機能**: 決済処理
- **ビジネスへの影響**:
- 決済ができないため、売上に影響
- 顧客からの問い合わせが増加
## 現在の状況
- **ステータス**: 原因調査中
- **一時的な対応**: 接続プールサイズを増加
- **復旧見込み**: 1時間以内
## 原因(判明している場合)
- **直接原因**: データベース接続プールの枯渇
- **根本原因**: 調査中
## 対応状況
1. **14:35**: 障害検知(監視アラート)
2. **14:40**: 初動対応開始
3. **14:45**: 一時的な対応実施
4. **現在**: 原因調査中
## 次のアクション
- [ ] 根本原因の特定
- [ ] 恒久的な対応の実施
- [ ] 再発防止策の検討
## ステークホルダーへの影響
- **顧客**: 決済ができない状態
- **営業**: 新規契約に影響の可能性
- **サポート**: 問い合わせが増加
## 次の更新予定
- **次回更新**: 2024年3月15日 15:00 JST
- **更新頻度**: 30分ごと

プロジェクト炎上時の報告方法

Section titled “プロジェクト炎上時の報告方法”

プロジェクト炎上の判断基準:

  • スケジュール遅延: 予定より2週間以上遅延
  • 予算超過: 予算の20%以上超過
  • 品質問題: 重大なバグが多数発生
  • リソース不足: 必要なリソースが確保できない
  • 要件変更: 頻繁な要件変更により、プロジェクトが混乱

炎上のレベル:

レベル1(注意):
- スケジュール遅延: 1週間
- 予算超過: 10%
- 軽微な問題が発生
レベル2(警告):
- スケジュール遅延: 2週間
- 予算超過: 20%
- 中程度の問題が発生
レベル3(緊急):
- スケジュール遅延: 1ヶ月以上
- 予算超過: 30%以上
- 重大な問題が発生
- プロジェクトの成功が危ぶまれる

2. プロジェクト炎上時の報告テンプレート

Section titled “2. プロジェクト炎上時の報告テンプレート”

即座の報告(Slack、電話):

【緊急】プロジェクト炎上報告
[レベル1/レベル2/レベル3] プロジェクトが炎上しています
■ プロジェクト名: ECサイトリニューアル
■ 現在の状況: スケジュール2週間遅延、予算20%超過
■ 主な問題:
- 要件変更が頻繁に発生
- リソース不足
■ 対応者: プロジェクトマネージャー、チームリーダー
■ 次の更新: 1時間後
詳細は後ほど共有します。

詳細報告(メール、ドキュメント):

# プロジェクト炎上報告書
## 基本情報
- **プロジェクト名**: ECサイトリニューアル
- **報告日時**: 2024年3月15日 14:00 JST
- **報告者**: プロジェクトマネージャー 田中
- **炎上のレベル**: レベル2(警告)
## 現在の状況
- **スケジュール**: 予定より2週間遅延
- **予算**: 予算の20%超過
- **品質**: 中程度の問題が発生
- **リソース**: リソース不足
## 主な問題
1. **要件変更の頻発**
- クライアントからの要件変更が週2-3回発生
- 影響: 開発計画の見直しが必要
2. **リソース不足**
- フロントエンドエンジニアが1名不足
- 影響: 開発速度が30%低下
3. **技術的負債**
- 既存システムとの統合に予想以上の時間が必要
- 影響: スケジュール遅延
## 影響範囲
- **スケジュール**: リリース予定日が2週間遅延
- **予算**: 追加コストが発生
- **品質**: テスト時間が不足し、品質に懸念
- **チーム**: チームメンバーの負荷が増加
## 対応策
1. **短期対応**
- [ ] 追加リソースの確保(フロントエンドエンジニア1名)
- [ ] 要件変更プロセスの見直し
- [ ] 優先度の高い機能に絞り込み
2. **中期対応**
- [ ] スケジュールの再計画
- [ ] 予算の見直し
- [ ] リスク管理の強化
3. **長期対応**
- [ ] プロジェクト管理プロセスの改善
- [ ] 要件定義プロセスの改善
## ステークホルダーへの影響
- **クライアント**: リリースが遅延
- **営業**: 新規契約に影響の可能性
- **チーム**: 負荷が増加
## 次のアクション
- [ ] ステークホルダーとの会議を設定
- [ ] スケジュールの再計画
- [ ] 追加リソースの確保
## 次の更新予定
- **次回更新**: 2024年3月18日 10:00 JST
- **更新頻度**: 週2回

プロジェクト遅延時の報告方法

Section titled “プロジェクト遅延時の報告方法”

遅延の判断基準:

  • 軽微な遅延: 1週間以内の遅延
  • 中程度の遅延: 1-2週間の遅延
  • 重大な遅延: 2週間以上の遅延

遅延の原因:

  • 要件変更: 頻繁な要件変更
  • リソース不足: 必要なリソースが確保できない
  • 技術的問題: 予想外の技術的問題
  • 外部依存: 外部ベンダーやAPIの遅延

2. プロジェクト遅延時の報告テンプレート

Section titled “2. プロジェクト遅延時の報告テンプレート”

定期的な報告(週次):

# プロジェクト遅延報告
## 基本情報
- **プロジェクト名**: ECサイトリニューアル
- **報告日時**: 2024年3月15日 10:00 JST
- **報告者**: プロジェクトマネージャー 田中
- **遅延の程度**: 中程度(1.5週間遅延)
## スケジュール状況
- **予定リリース日**: 2024年4月1日
- **現在の見込み**: 2024年4月10日
- **遅延日数**: 9日(1.5週間)
## 遅延の原因
1. **要件変更**
- クライアントからの要件変更が3回発生
- 影響: 3日の遅延
2. **技術的問題**
- 既存システムとの統合に予想以上の時間が必要
- 影響: 5日の遅延
3. **リソース不足**
- フロントエンドエンジニアが1名不足
- 影響: 1日の遅延
## 影響範囲
- **機能**: 一部の機能がリリース時に含まれない可能性
- **品質**: テスト時間が不足し、品質に懸念
- **コスト**: 追加コストが発生する可能性
## 対応策
1. **短期対応**
- [ ] 優先度の高い機能に絞り込み
- [ ] 追加リソースの確保を検討
2. **中期対応**
- [ ] スケジュールの再計画
- [ ] リスク管理の強化
## 次のアクション
- [ ] ステークホルダーとの会議を設定
- [ ] スケジュールの再計画
- [ ] 追加リソースの確保
## 次の更新予定
- **次回更新**: 2024年3月22日 10:00 JST

エスカレーションが必要な状況:

  • P0障害: 30分以内に解決しない場合
  • P1障害: 2時間以内に解決しない場合
  • プロジェクト炎上: レベル2以上の場合
  • プロジェクト遅延: 2週間以上の遅延
  • 予算超過: 予算の30%以上超過
  • リソース不足: 必要なリソースが確保できない

エスカレーションの階層:

レベル1: チームリーダー、プロジェクトマネージャー
↓(30分以内に解決しない場合)
レベル2: 部門長、CTO
↓(1時間以内に解決しない場合)
レベル3: 経営層、CEO

エスカレーションテンプレート:

【エスカレーション】緊急対応が必要です
■ エスカレーション理由: P0障害が30分経過しても解決していない
■ 現在の状況: 原因調査中、一時的な対応を実施中
■ 必要な支援:
- 追加のエンジニアリソース
- 経営層の判断が必要な事項
■ エスカレーション先: 部門長、CTO
■ 緊急度: 高
詳細は添付の報告書をご確認ください。
  • 即座の報告: P0、P1障害は5分以内に報告
  • 定期的な更新: 状況が変化した場合は即座に更新
  • 透明性: 問題を隠さず、正直に報告
  • 事実の報告: 推測ではなく、事実を報告
  • 数値の使用: 定性的な表現ではなく、数値で表現
  • 影響範囲の明確化: 誰に、どのような影響があるかを明確に
  • 現状の報告: 現在の状況を報告
  • 対応策の提示: 解決策や対応策を提示
  • 次のアクション: 次のアクションを明確に

4. 継続的なコミュニケーション

Section titled “4. 継続的なコミュニケーション”
  • 定期的な更新: 定期的に状況を更新
  • ステークホルダーへの報告: ステークホルダーに適切に報告
  • 振り返り: 問題解決後、振り返りを実施

障害時・プロジェクト炎上・遅延時の報告方法:

  • 報告のタイミング: 優先度に応じた適切なタイミングで報告
  • 報告先の明確化: 報告先の階層を明確に定義
  • 報告テンプレート: 統一されたテンプレートを使用
  • エスカレーション手順: 適切なエスカレーション手順を定義
  • ベストプラクティス: 迅速、明確、解決策の提示、継続的なコミュニケーション

適切な報告方法により、問題を早期に発見し、適切に対応できます。