クラウドフレアの大規模障害の原因は設定ミスだった。 ~Discord、Pixiv、Amazon、Skype、京都府、原神、VALORANT、マイニンテンドーストアなどが影響~



CDNプロバイダーの米Cloudflareは、2022年6月21日午後(日本時間)に発生したネットワーク障害についての報告を公開しました。

Cloudflareの報告によると障害はBGP(Border Gateway Protocol)の設定ミスが原因で、これにより東京データセンターを含む同社の主要な19のデータセンターで障害が発生したとのことです。

同社は過去1年半をかけて、東京データセンターを含むトラフィックの多い19のデータセンターに対して同社内で「Multi-Colo PoP」(MCP)と呼ばれる、接続のメッシュを作成するルーティングの追加レイヤーを用いてより復元力のある新しいアーキテクチャを展開してきました。

このメッシュを使用するとデータセンターの内部ネットワークの一部を簡単に無効化あるいは有効化でき、それによりメンテナンスやトラブルへの対処を行うことができるようになったとのことでした。

しかし今回の障害は、この新しいアーキテクチャのネットワークに対して、データセンター間のルーティングを設定するBGP設定にミスがあったことが原因だと報告されています。




~2022/6/22投稿記事~

【クラウドフレアで久しぶりの大規模障害、サービス配信などが一時停止 ~コミュニケーションツールの「Discord」やイラスト投稿などを行なえるSNS「Pixiv」、Amazon、Skype、京都府などが影響~】



コンテンツ配信ネットワーク(CDN)のCloudflareで2022年6月21日、大規模障害が発生し、世界各地でオンラインサービスの提供が一時停止するなどの影響が発生した。同社は日本時間の同日午後4時20分時点で復旧策を講じたとしている。

今回の障害は、世界協定時間(UTC)の午前6時34分(日本時間午後2時34分)に発生し、Cloudflareのネットワークを利用するオンラインサービスにアクセスができないなどの状況が起きた。

同社は、同日の午前6時57分(日本時間午後2時57分)に状況を認識して復旧策を講じ、午前7時20分(日本時間午後4時20分)に復旧作業を完了、午前7時51分(日本時間午後4時51分)現在でサービスの復旧状況について監視を継続中と説明している。

尚、前回障害2020年で、日本時間の4月15日午前0時31分から午前4時52分まで、ダッシュボードおよびAPIがダウン。原因はオペミス(データセンター内でパッチ盤からケーブルを引っこ抜いてしまった)であった。

その前は2019年で、7月2日午後11時50分ごろ(日本時間)から約30分間にわたり、世界中で全面的にダウン。端的な原因はオペミス(問題のあるソフトウェアをデプロイ)と言われている。