Skip to content

カスケード障害のメカニズム

1つの遅延が全体を死滅させるメカニズムと、その対策を詳しく解説します。

1. 外部APIが遅延(通常100ms → 5s)
2. 接続待ちスレッドが解放されずプールが飽和
3. 全エンドポイントが応答不能に陥る
4. 不完全なDBトランザクションを残して全プロセスダウン
→ 1つの遅延が全体を死滅させる
時刻: 2024-01-01 10:00:00
状況: 外部決済APIが遅延
10:00:00.000 - 外部決済APIが通常の100msから5秒に遅延開始
10:00:00.100 - リクエスト1受信(スレッド1を取得、外部API呼び出し開始)
10:00:00.200 - リクエスト2受信(スレッド2を取得、外部API呼び出し開始)
10:00:00.300 - リクエスト3受信(スレッド3を取得、外部API呼び出し開始)
...
10:00:01.000 - スレッドプールが飽和(5/5スレッドが外部API待ち)
10:00:01.100 - リクエスト6受信(スレッドプールが満杯、待機)
10:00:01.200 - リクエスト7受信(スレッドプールが満杯、待機)
...
10:00:05.000 - 外部APIが応答(5秒経過)
10:00:05.100 - スレッド1が解放されるが、すぐに次のリクエストで使用される
10:00:05.200 - スレッド2が解放されるが、すぐに次のリクエストで使用される
10:00:05.300 - 外部APIが再び遅延(負荷が高い)
10:00:10.000 - すべてのスレッドが再び外部API待ちで飽和
10:00:10.100 - 新しいリクエストが処理できず、タイムアウトエラーが発生
10:00:10.200 - エラーログが大量に出力され、ログシステムも負荷が高い
10:00:15.000 - システム全体が応答不能に陥る
# ❌ 問題のあるコード: タイムアウトなし、サーキットブレーカーなし
import requests
def create_order(request):
order = Order.objects.create(**order_data)
# 問題: タイムアウトが設定されていない
# 問題: サーキットブレーカーがない
response = requests.post(
'https://payment-api.example.com/charge',
json={'order_id': order.id, 'amount': order.amount},
)
return JsonResponse(response.json())

なぜ事故るか:

  1. タイムアウトなし: 外部APIが遅延すると、スレッドが長時間占有される
  2. サーキットブレーカーなし: 外部APIが障害状態でも呼び出し続ける
  3. スレッドプールの飽和: すべてのスレッドが外部API待ちで、他のリクエストが処理できない
# ✅ 良い例: タイムアウトを設定
import requests
def create_order(request):
order = Order.objects.create(**order_data)
try:
response = requests.post(
'https://payment-api.example.com/charge',
json={'order_id': order.id, 'amount': order.amount},
timeout=3 # 3秒でタイムアウト
)
return JsonResponse(response.json())
except requests.Timeout:
return JsonResponse({'error': 'Payment API timeout'}, status=504)

2. サーキットブレーカーの実装

Section titled “2. サーキットブレーカーの実装”
# ✅ 良い例: pybreakerを使用したサーキットブレーカー
import pybreaker
circuit_breaker = pybreaker.CircuitBreaker(
fail_max=5,
timeout_duration=30,
expected_exception=requests.RequestException
)
@circuit_breaker
def charge_payment(order_id, amount):
response = requests.post(
'https://payment-api.example.com/charge',
json={'order_id': order_id, 'amount': amount},
timeout=3
)
return response.json()
def create_order(request):
order = Order.objects.create(**order_data)
try:
result = charge_payment(order.id, order.amount)
return JsonResponse(result)
except pybreaker.CircuitBreakerError:
return JsonResponse(
{'error': 'Payment service is temporarily unavailable'},
status=503
)
# ✅ 良い例: Celeryで非同期処理
from celery import shared_task
@shared_task
def charge_payment_task(order_id, amount):
response = requests.post(
'https://payment-api.example.com/charge',
json={'order_id': order_id, 'amount': amount},
timeout=3
)
return response.json()
def create_order(request):
order = Order.objects.create(**order_data)
# 非同期処理をキューに投入(スレッドプールを占有しない)
charge_payment_task.delay(order.id, order.amount)
return JsonResponse({'id': order.id})

カスケード障害のメカニズムのポイント:

  • 発生フロー: 外部APIの遅延 → スレッドプールの飽和 → 全エンドポイントの応答不能 → システム全体のダウン
  • 対策: タイムアウト設定、サーキットブレーカー、Celeryによる非同期処理
  • 原則: すべての設計はこのフローを想定して、「時間とリソース」で守る

適切な対策により、1つの遅延が全体を死滅させることを防げます。