
CDNプロバイダーの米Cloudflareは、2022年6月21日午後(日本時間)に発生したネットワーク障害についての報告を公開しました。
Cloudflareの報告によると障害はBGP(Border Gateway Protocol)の設定ミスが原因で、これにより東京データセンターを含む同社の主要な19のデータセンターで障害が発生したとのことです。
同社は過去1年半をかけて、東京データセンターを含むトラフィックの多い19のデータセンターに対して同社内で「Multi-Colo PoP」(MCP)と呼ばれる、接続のメッシュを作成するルーティングの追加レイヤーを用いてより復元力のある新しいアーキテクチャを展開してきました。
このメッシュを使用するとデータセンターの内部ネットワークの一部を簡単に無効化あるいは有効化でき、それによりメンテナンスやトラブルへの対処を行うことができるようになったとのことでした。
しかし今回の障害は、この新しいアーキテクチャのネットワークに対して、データセンター間のルーティングを設定するBGP設定にミスがあったことが原因だと報告されています。