インシデント対応手順
インシデント対応手順
Section titled “インシデント対応手順”インシデント(障害、セキュリティ侵害など)が発生した際の対応手順を明確に定義することで、迅速かつ適切に対応できます。
なぜインシデント対応手順が重要なのか
Section titled “なぜインシデント対応手順が重要なのか”問題のあるインシデント対応
Section titled “問題のあるインシデント対応”問題のある状況:
- インシデント発生時に誰に連絡すればいいか分からない- 対応手順が明確でない- 情報が散在している- 同じインシデントが繰り返される- インシデント後の振り返りが行われない影響:
- インシデントの対応に時間がかかる
- ユーザーへの影響が拡大する
- チーム全体のストレスが増える
- 同じ問題が繰り返される
インシデント対応手順
Section titled “インシデント対応手順”1. インシデントの定義
Section titled “1. インシデントの定義”インシデントの種類:
- P0(緊急): サービスが完全に停止している、または重大なセキュリティ侵害
- P1(高): サービスの主要機能が使用できない
- P2(中): サービスの一部機能が使用できない
- P3(低): 軽微な問題、影響範囲が限定的
例:
P0(緊急):- 本番環境が完全にダウン- データベースがクラッシュ- セキュリティ侵害(個人情報漏洩など)
P1(高):- 決済機能が使用できない- ログイン機能が使用できない- APIのレスポンスが極端に遅い(10秒以上)
P2(中):- 一部のページが表示されない- レポート機能が使用できない- メール送信が失敗する
P3(低):- UIの表示が崩れている- 軽微なバグ- パフォーマンスの軽微な劣化2. インシデント対応の流れ
Section titled “2. インシデント対応の流れ”ステップ1: 検知
- 監視ツールからのアラート: CloudWatch、DataDog、Sentryなど
- ユーザーからの報告: サポートチケット、Slack、メール
- チームメンバーからの報告: 開発中に発見
ステップ2: トリアージ
- 優先度の決定: P0、P1、P2、P3のいずれかに分類
- 影響範囲の確認: どのユーザー、どの機能に影響があるか
- 対応者の決定: 誰が対応するか
ステップ3: 対応
- 原因の特定: ログの確認、メトリクスの確認
- 一時的な対応: ロールバック、サービス停止、トラフィックの制限
- 恒久的な対応: バグ修正、インフラの修正
ステップ4: 復旧確認
- 動作確認: サービスが正常に動作しているか確認
- 監視: メトリクスが正常に戻っているか確認
- ユーザーへの通知: インシデントが解決したことを通知
ステップ5: 振り返り
- インシデントレポートの作成: 原因、対応、今後の対策を記録
- 振り返り会議: チーム全体で振り返り
- 改善アクション: 再発防止のためのアクションを決定
インシデント対応の実践
Section titled “インシデント対応の実践”1. インシデント対応チャネル
Section titled “1. インシデント対応チャネル”Slackチャネル:
- #incident: インシデント対応専用チャネル
- #incident-p0: P0インシデント専用チャネル
- #monitoring: 監視アラート専用チャネル
通知ルール:
- P0: 全員に通知、電話での呼び出し
- P1: オンコール担当者に通知
- P2: 該当チームに通知
- P3: 該当チームに通知(緊急ではない)
2. オンコール制度
Section titled “2. オンコール制度”オンコール担当者の役割:
- インシデントの初動対応
- エスカレーションの判断
- インシデントレポートの作成
オンコールのローテーション:
- 週単位でローテーション
- 2名以上でオンコール(プライマリ、セカンダリ)
- オンコールカレンダーで管理
オンコールの報酬:
- オンコール手当の支給
- オンコール後の休暇の提供
3. インシデントレポートのテンプレート
Section titled “3. インシデントレポートのテンプレート”# インシデントレポート
## 基本情報- **インシデントID**: INC-2024-001- **発生日時**: 2024年3月15日 14:30 JST- **検知日時**: 2024年3月15日 14:35 JST- **解決日時**: 2024年3月15日 15:45 JST- **影響時間**: 1時間15分- **優先度**: P1(高)- **対応者**: 田中、佐藤
## 影響範囲- **影響を受けたサービス**: 決済API- **影響を受けたユーザー数**: 約500名- **影響を受けた機能**: 決済処理
## 原因- **根本原因**: データベース接続プールの枯渇- **直接原因**: 大量のリクエストによる接続プールの枯渇- **根本原因の詳細**: - 接続プールサイズが適切に設定されていなかった - 接続の適切なクローズが行われていなかった
## 対応内容1. **14:35**: インシデント検知(監視アラート)2. **14:40**: 原因の特定(データベース接続プールの枯渇)3. **14:45**: 一時的な対応(接続プールサイズの増加)4. **15:00**: サービス復旧確認5. **15:30**: 恒久的な対応(接続管理の改善)
## 今後の対策- [ ] 接続プールサイズの適切な設定- [ ] 接続の適切なクローズの実装- [ ] 接続プールの監視アラートの設定- [ ] 負荷テストの実施
## 学び- 接続プールの監視が不十分だった- 負荷テストが不足していた- インシデント対応の手順が明確でなかったインシデント対応のベストプラクティス
Section titled “インシデント対応のベストプラクティス”1. 迅速な対応
Section titled “1. 迅速な対応”- 初動対応: 5分以内に初動対応を開始
- エスカレーション: 30分以内に解決しない場合はエスカレーション
- コミュニケーション: 定期的に状況を共有
2. 情報の共有
Section titled “2. 情報の共有”- ステータスページ: ユーザー向けのステータスページを更新
- 内部コミュニケーション: Slack、メールで状況を共有
- ドキュメント: インシデントレポートを記録
3. 振り返り
Section titled “3. 振り返り”- 振り返り会議: インシデント解決後1週間以内に実施
- 改善アクション: 具体的な改善アクションを決定
- フォローアップ: 改善アクションの進捗を確認
インシデント対応手順:
- インシデントの定義: P0、P1、P2、P3の優先度分類
- 対応の流れ: 検知→トリアージ→対応→復旧確認→振り返り
- 実践: インシデント対応チャネル、オンコール制度、インシデントレポート
- ベストプラクティス: 迅速な対応、情報の共有、振り返り
適切なインシデント対応手順により、迅速かつ適切にインシデントに対応できます。
障害時・プロジェクト炎上・遅延時の報告方法
Section titled “障害時・プロジェクト炎上・遅延時の報告方法”障害やプロジェクトの炎上、遅延が発生した際の報告方法を明確に定義することで、適切な対応とエスカレーションが可能になります。
なぜ報告方法が重要なのか
Section titled “なぜ報告方法が重要なのか”報告が不適切な場合の問題
Section titled “報告が不適切な場合の問題”問題のある状況:
- 障害が発生したが、報告が遅れた- プロジェクトが遅延しているが、誰も気づいていない- 報告内容が不明確で、対応が遅れる- エスカレーションが適切に行われず、問題が拡大する- 報告先が不明確で、適切な判断ができない影響:
- 問題の対応が遅れる
- 影響範囲が拡大する
- ステークホルダーからの信頼が失われる
- チーム全体のストレスが増える
- プロジェクトの失敗リスクが高まる
障害時の報告方法
Section titled “障害時の報告方法”1. 報告のタイミング
Section titled “1. 報告のタイミング”即座に報告すべき状況:
- P0(緊急): サービスが完全に停止している
- P1(高): サービスの主要機能が使用できない
- セキュリティ侵害: 個人情報漏洩、不正アクセスなど
- データ損失: データの消失、破損など
報告のタイムライン:
P0(緊急):- 検知後5分以内: 初動報告(Slack、電話)- 検知後15分以内: 詳細報告(メール、ドキュメント)- 検知後30分以内: ステークホルダーへの報告
P1(高):- 検知後15分以内: 初動報告- 検知後30分以内: 詳細報告- 検知後1時間以内: ステークホルダーへの報告
P2(中):- 検知後1時間以内: 報告- 定期的な更新: 状況が変化した場合
P3(低):- 定期的な報告: 日次、週次レポートに含める2. 報告先の明確化
Section titled “2. 報告先の明確化”報告先の階層:
レベル1: チームリーダー、プロジェクトマネージャー ↓(エスカレーション)レベル2: 部門長、CTO ↓(エスカレーション)レベル3: 経営層、CEO報告先の決定基準:
- P0(緊急): レベル1 → レベル2 → レベル3(必要に応じて)
- P1(高): レベル1 → レベル2
- P2(中): レベル1
- P3(低): 定期的な報告
3. 障害報告のテンプレート
Section titled “3. 障害報告のテンプレート”即座の報告(Slack、電話):
【緊急】障害発生報告
[P0/P1/P2/P3] 障害が発生しました
■ 発生日時: 2024年3月15日 14:30 JST■ 影響範囲: 決済API■ 影響ユーザー数: 約500名■ 現在の状況: 原因調査中■ 対応者: 田中、佐藤■ 次の更新: 15分後
詳細は後ほど共有します。詳細報告(メール、ドキュメント):
# 障害報告書
## 基本情報- **障害ID**: INC-2024-001- **発生日時**: 2024年3月15日 14:30 JST- **検知日時**: 2024年3月15日 14:35 JST- **報告日時**: 2024年3月15日 14:40 JST- **優先度**: P1(高)- **報告者**: 田中- **対応者**: 田中、佐藤
## 影響範囲- **影響を受けたサービス**: 決済API- **影響を受けたユーザー数**: 約500名- **影響を受けた機能**: 決済処理- **ビジネスへの影響**: - 決済ができないため、売上に影響 - 顧客からの問い合わせが増加
## 現在の状況- **ステータス**: 原因調査中- **一時的な対応**: 接続プールサイズを増加- **復旧見込み**: 1時間以内
## 原因(判明している場合)- **直接原因**: データベース接続プールの枯渇- **根本原因**: 調査中
## 対応状況1. **14:35**: 障害検知(監視アラート)2. **14:40**: 初動対応開始3. **14:45**: 一時的な対応実施4. **現在**: 原因調査中
## 次のアクション- [ ] 根本原因の特定- [ ] 恒久的な対応の実施- [ ] 再発防止策の検討
## ステークホルダーへの影響- **顧客**: 決済ができない状態- **営業**: 新規契約に影響の可能性- **サポート**: 問い合わせが増加
## 次の更新予定- **次回更新**: 2024年3月15日 15:00 JST- **更新頻度**: 30分ごとプロジェクト炎上時の報告方法
Section titled “プロジェクト炎上時の報告方法”1. プロジェクト炎上の定義
Section titled “1. プロジェクト炎上の定義”プロジェクト炎上の判断基準:
- スケジュール遅延: 予定より2週間以上遅延
- 予算超過: 予算の20%以上超過
- 品質問題: 重大なバグが多数発生
- リソース不足: 必要なリソースが確保できない
- 要件変更: 頻繁な要件変更により、プロジェクトが混乱
炎上のレベル:
レベル1(注意):- スケジュール遅延: 1週間- 予算超過: 10%- 軽微な問題が発生
レベル2(警告):- スケジュール遅延: 2週間- 予算超過: 20%- 中程度の問題が発生
レベル3(緊急):- スケジュール遅延: 1ヶ月以上- 予算超過: 30%以上- 重大な問題が発生- プロジェクトの成功が危ぶまれる2. プロジェクト炎上時の報告テンプレート
Section titled “2. プロジェクト炎上時の報告テンプレート”即座の報告(Slack、電話):
【緊急】プロジェクト炎上報告
[レベル1/レベル2/レベル3] プロジェクトが炎上しています
■ プロジェクト名: ECサイトリニューアル■ 現在の状況: スケジュール2週間遅延、予算20%超過■ 主な問題: - 要件変更が頻繁に発生 - リソース不足■ 対応者: プロジェクトマネージャー、チームリーダー■ 次の更新: 1時間後
詳細は後ほど共有します。詳細報告(メール、ドキュメント):
# プロジェクト炎上報告書
## 基本情報- **プロジェクト名**: ECサイトリニューアル- **報告日時**: 2024年3月15日 14:00 JST- **報告者**: プロジェクトマネージャー 田中- **炎上のレベル**: レベル2(警告)
## 現在の状況- **スケジュール**: 予定より2週間遅延- **予算**: 予算の20%超過- **品質**: 中程度の問題が発生- **リソース**: リソース不足
## 主な問題1. **要件変更の頻発** - クライアントからの要件変更が週2-3回発生 - 影響: 開発計画の見直しが必要
2. **リソース不足** - フロントエンドエンジニアが1名不足 - 影響: 開発速度が30%低下
3. **技術的負債** - 既存システムとの統合に予想以上の時間が必要 - 影響: スケジュール遅延
## 影響範囲- **スケジュール**: リリース予定日が2週間遅延- **予算**: 追加コストが発生- **品質**: テスト時間が不足し、品質に懸念- **チーム**: チームメンバーの負荷が増加
## 対応策1. **短期対応** - [ ] 追加リソースの確保(フロントエンドエンジニア1名) - [ ] 要件変更プロセスの見直し - [ ] 優先度の高い機能に絞り込み
2. **中期対応** - [ ] スケジュールの再計画 - [ ] 予算の見直し - [ ] リスク管理の強化
3. **長期対応** - [ ] プロジェクト管理プロセスの改善 - [ ] 要件定義プロセスの改善
## ステークホルダーへの影響- **クライアント**: リリースが遅延- **営業**: 新規契約に影響の可能性- **チーム**: 負荷が増加
## 次のアクション- [ ] ステークホルダーとの会議を設定- [ ] スケジュールの再計画- [ ] 追加リソースの確保
## 次の更新予定- **次回更新**: 2024年3月18日 10:00 JST- **更新頻度**: 週2回プロジェクト遅延時の報告方法
Section titled “プロジェクト遅延時の報告方法”1. プロジェクト遅延の定義
Section titled “1. プロジェクト遅延の定義”遅延の判断基準:
- 軽微な遅延: 1週間以内の遅延
- 中程度の遅延: 1-2週間の遅延
- 重大な遅延: 2週間以上の遅延
遅延の原因:
- 要件変更: 頻繁な要件変更
- リソース不足: 必要なリソースが確保できない
- 技術的問題: 予想外の技術的問題
- 外部依存: 外部ベンダーやAPIの遅延
2. プロジェクト遅延時の報告テンプレート
Section titled “2. プロジェクト遅延時の報告テンプレート”定期的な報告(週次):
# プロジェクト遅延報告
## 基本情報- **プロジェクト名**: ECサイトリニューアル- **報告日時**: 2024年3月15日 10:00 JST- **報告者**: プロジェクトマネージャー 田中- **遅延の程度**: 中程度(1.5週間遅延)
## スケジュール状況- **予定リリース日**: 2024年4月1日- **現在の見込み**: 2024年4月10日- **遅延日数**: 9日(1.5週間)
## 遅延の原因1. **要件変更** - クライアントからの要件変更が3回発生 - 影響: 3日の遅延
2. **技術的問題** - 既存システムとの統合に予想以上の時間が必要 - 影響: 5日の遅延
3. **リソース不足** - フロントエンドエンジニアが1名不足 - 影響: 1日の遅延
## 影響範囲- **機能**: 一部の機能がリリース時に含まれない可能性- **品質**: テスト時間が不足し、品質に懸念- **コスト**: 追加コストが発生する可能性
## 対応策1. **短期対応** - [ ] 優先度の高い機能に絞り込み - [ ] 追加リソースの確保を検討
2. **中期対応** - [ ] スケジュールの再計画 - [ ] リスク管理の強化
## 次のアクション- [ ] ステークホルダーとの会議を設定- [ ] スケジュールの再計画- [ ] 追加リソースの確保
## 次の更新予定- **次回更新**: 2024年3月22日 10:00 JSTエスカレーション手順
Section titled “エスカレーション手順”1. エスカレーションの基準
Section titled “1. エスカレーションの基準”エスカレーションが必要な状況:
- P0障害: 30分以内に解決しない場合
- P1障害: 2時間以内に解決しない場合
- プロジェクト炎上: レベル2以上の場合
- プロジェクト遅延: 2週間以上の遅延
- 予算超過: 予算の30%以上超過
- リソース不足: 必要なリソースが確保できない
2. エスカレーションの手順
Section titled “2. エスカレーションの手順”エスカレーションの階層:
レベル1: チームリーダー、プロジェクトマネージャー ↓(30分以内に解決しない場合)レベル2: 部門長、CTO ↓(1時間以内に解決しない場合)レベル3: 経営層、CEOエスカレーションテンプレート:
【エスカレーション】緊急対応が必要です
■ エスカレーション理由: P0障害が30分経過しても解決していない■ 現在の状況: 原因調査中、一時的な対応を実施中■ 必要な支援: - 追加のエンジニアリソース - 経営層の判断が必要な事項■ エスカレーション先: 部門長、CTO■ 緊急度: 高
詳細は添付の報告書をご確認ください。報告のベストプラクティス
Section titled “報告のベストプラクティス”1. 迅速な報告
Section titled “1. 迅速な報告”- 即座の報告: P0、P1障害は5分以内に報告
- 定期的な更新: 状況が変化した場合は即座に更新
- 透明性: 問題を隠さず、正直に報告
2. 明確な報告
Section titled “2. 明確な報告”- 事実の報告: 推測ではなく、事実を報告
- 数値の使用: 定性的な表現ではなく、数値で表現
- 影響範囲の明確化: 誰に、どのような影響があるかを明確に
3. 解決策の提示
Section titled “3. 解決策の提示”- 現状の報告: 現在の状況を報告
- 対応策の提示: 解決策や対応策を提示
- 次のアクション: 次のアクションを明確に
4. 継続的なコミュニケーション
Section titled “4. 継続的なコミュニケーション”- 定期的な更新: 定期的に状況を更新
- ステークホルダーへの報告: ステークホルダーに適切に報告
- 振り返り: 問題解決後、振り返りを実施
障害時・プロジェクト炎上・遅延時の報告方法:
- 報告のタイミング: 優先度に応じた適切なタイミングで報告
- 報告先の明確化: 報告先の階層を明確に定義
- 報告テンプレート: 統一されたテンプレートを使用
- エスカレーション手順: 適切なエスカレーション手順を定義
- ベストプラクティス: 迅速、明確、解決策の提示、継続的なコミュニケーション
適切な報告方法により、問題を早期に発見し、適切に対応できます。