2025年2月6日、CloudflareのR2オブジェクトストレージプラットフォームでフィッシングURLのブロックを試みたところ、裏目に出て大規模な障害が発生し、複数のサービスが約1時間にわたって停止しました。
Cloudflare R2は、Amazon S3に似たオブジェクトストレージサービスで、スケーラブルで耐久性があり、低コストなデータストレージを提供することを謳っています。無料のデータ取得、S3互換性、複数ロケーションへのデータレプリケーション、およびCloudflareサービスとの統合を提供しています。
障害は従業員がCloudflareのR2プラットフォームにあるフィッシングURLに関する不正行為の報告に対応した際に発生しました。しかし、従業員は特定のエンドポイントをブロックする代わりに、誤ってR2 Gatewayサービス全体を停止してしまいました。
「通常の不正行為の是正中に、報告に関連付けられた特定のエンドポイント/バケットではなく、誤ってR2 Gatewayサービスを無効にする措置が取られました」と、Cloudflareは事後分析書で説明しています。「これは、複数のシステムレベルの制御(何よりもまず)とオペレーターのトレーニングの失敗でした。」
インシデントはUTCの08:10から09:09までの59分間続き、R2オブジェクトストレージ自体に加えて、以下のサービスにも影響を与えました。
* Stream – ビデオのアップロードとストリーミング配信で100%の障害
* Images – 画像のアップロード/ダウンロードで100%の障害
* Cache Reserve – 操作で100%の障害が発生し、オリジンリクエストが増加
* Vectorize – クエリで75%の障害、挿入、更新、削除操作で100%の障害
* Log Delivery – 遅延とデータ損失:R2関連ログで最大13.6%のデータ損失、R2以外の配信ジョブで最大4.5%のデータ損失
* Key Transparency Auditor – 署名公開および読み取り操作で100%の障害
Durable Objects(復旧後の再接続により0.09%のエラー率増加)、Cache Purge(エラー(HTTP 5xx)が1.8%増加し、レイテンシが10倍に急増)、Workers&Pages(R2バインディングを持つプロジェクトのみに影響する0.002%のデプロイ失敗)など、間接的に影響を受けたサービスもありました。
Cloudflareは、人的エラーと、影響の大きいアクションに対する検証チェックなどの安全対策の欠如が、このインシデントの重要な要因であったと指摘しています。
このインターネット巨人は現在、不正レビューインターフェースでシステムをオフにする機能を削除したり、内部アカウントでのサービス無効化を防ぐためのAdmin APIの制限など、即時の修正を実施しました。
今後実施される追加の対策には、アカウントプロビジョニングの改善、より厳格なアクセス制御、および高リスクアクションに対する二者間承認プロセスが含まれます。
2024年11月、Cloudflareは別の注目すべき障害を3.5時間経験し、サービス内のすべてのログの55%が回復不能な状態で失われました。
そのインシデントは、Cloudflareの自動軽減システムにおけるカスケード障害が、同社のロギングパイプラインの主要コンポーネントへの誤った構成のプッシュによって引き起こされました。