2025年4月15日、日本時間の午後4時40分頃から約1時間にわたり、Amazon Web Services(AWS)の東京リージョン(AP-NORTHEAST-1)に属するアベイラビリティゾーン「apne1-az4」で障害が発生しました。AWSはその原因として、「影響を受けたEC2インスタンスへの主電源および二次電源が遮断されたこと」が要因だったと明らかにしています。
アベイラビリティゾーンの1つで障害発生
AWS東京リージョンは、物理的に独立した4つのアベイラビリティゾーン(AZ)で構成されており、それぞれが個別の電源供給やインターネット接続を持ちながら、専用の高速ネットワークで相互接続されています。この設計により、1つのAZに障害が発生しても、他のゾーンに影響を及ぼさない仕組みとなっています。
今回はそのうちの「apne1-az4」において障害が起こり、Amazon EC2を中心に複数のサービスに影響が及びました。
午後4時40分、EC2に接続障害
AWSの「AWS Health Dashboard」によると、障害は4月15日午後4時40分に発生。apne1-az4において一部のEC2インスタンスで接続不能の状態が確認され、これに依存するAPIなどでもエラー率やレイテンシーの上昇が見られました。
AWSのエンジニアは障害発生から数分以内に対応を開始し、復旧に向けた調査と対応が進められました。
午後5時43分に復旧、原因も判明
AWSは午後5時15分にダッシュボード上で障害の発生を告知し、調査を継続中であることを発表。午後5時21分には「回復の兆しがある」とのコメントを出し、午後5時51分には「午後5時43分に障害は収束した」と報告しました。
また、この報告の中で「主電源と二次電源の両方が遮断されたことが直接的な原因だった」との説明がありました。
しかし、記事執筆時点(4月16日午後9時30分)では、なぜ冗長性を確保しているはずの主・副電源の両方が同時に遮断されたのか、今後どのような再発防止策が講じられるのかについての詳細は公開されていません。
過去にも発生していた東京リージョンの障害
AWS東京リージョンでは、過去にも重大な障害が発生しています。
-
2021年9月:ネットワーク機器の新プロトコル処理に潜むバグが原因で、大規模な障害が発生。
-
2019年8月:冷却システムの不具合によるフェイルセーフの失敗と、それに続く手動対応の不備でシステムが停止。
これらの事例からも、クラウド環境でのシステム構築には、単一のアベイラビリティゾーンへの依存を避け、複数のAZやリージョンを組み合わせた設計が不可欠であることが分かります。