fastlyのCDNで障害発生 / Fastly: global internet outage caused by a software bug(転載)~クラウドサービスのリスク事例~


Fastly: global internet outage caused by a software bug:
fastlyのCDNで発生したシステム障害についてまとめてみた
 

世界各地で発生した大規模なインターネット障害の原因となったFastly Inc.は2日、この事件は同社の顧客が設定を変更した際に発生したソフトウェアのバグが原因であると発表した。

2021年6月8日に発生した障害は、インターネットが少数のインフラ企業に依存していることに疑問を投げかけるものでした。Fastly社の問題により、「The Guardian」や「New York Times」などのニュースプロバイダーをはじめ、英国政府のサイト、「Reddit」、「Amazon.com」など、トラフィックの多いサイトが停止しました。

日本のサイトでも、メルカリ、楽天市場、読売新聞、日本経済新聞、ABEMA、環境省、金融庁、国土交通省関係サイト、厚生労働省関係サイト、広島大学、Yahoo! JAPAN、note、Paravi、TVerなどが影響を受けています。

"Fastly社は、同社のエンジニアリングおよびインフラストラクチャー担当上級役員であるニック・ロックウェル氏のブログで、「今回の障害は広範囲かつ深刻なものであり、お客様およびお客様に依存しているすべての方々に影響を与えたことを心よりお詫び申し上げます」と述べています。

ロックウェル氏は、この問題は予想されていたはずだと述べています。Fastly社は、世界中に戦略的に配置されたサーバー群を運営しており、顧客がエンドユーザーの近くにコンテンツを迅速かつ安全に移動・保管できるよう支援しています。

同社の投稿には、出来事の時系列が記載されており、Fastly社が自社のテストプロセスでソフトウェアのバグを検出できなかった理由を調査し、説明することを約束している。

Fastly社によると、このバグは2021年5月12日に顧客に出荷されたソフトウェア・アップデートに含まれていましたが、正体不明の顧客が設定変更を行って問題が発生するまでは、「当社のネットワークの85%がエラーを返す原因となった」と述べています。

Fastlyは、09:47 GMTに発生した障害に1分以内に気づき、10:27 GMTにエンジニアが原因を突き止めました。問題の原因となった設定を無効にしたところ、同社のネットワークのほとんどがすぐに回復しました。

"49分以内にネットワークの95%が正常に動作するようになりました」と同社は述べています。

同社のネットワークは12:35GMTに完全に復旧し、17:25GMTには恒久的なソフトウェア修正プログラムの配布を開始したとFastly社は述べています。