Cloudflareで『また』障害発生

CloudflareというCDNサービスをご存じだろうか。

CDNサービスと言えば、最も有名なのはAkamaiである。

Akamai=アカマイ=赤米 ではない。

※「知性」を意味するハワイ語に由来するとのことで、日本語とは関係ない。

CDNサービスとは、Webコンテンツ(Webサイト、画像、Flashコンテンツ、動画など)をスピーディに安定配信するための負荷分散・配信ネットワーク。

これらのサービスを活用することで、クライアントは実際の配信元のサーバにアクセスするのではなく、CDNサービスにアクセスしてWebコンテンツを入手することとなるため、配信元サーバの負荷軽減に役立つ。

また、クライアントはCDNサービス経由でのアクセスとなることから、コンテンツ配信のみならず、DDoS対策やクラウドWAFとしても利用される。

ここまで話せばお気づきだと思うのだが、CDNサービスで障害が発生してしまうと、いくら配信元のサーバが元気に稼働していても、クライアントはWebコンテンツにたどり着くことができない。

つまり、CDNサービスとは稼働率100%が求められるのだ。

そんなCDNサービス事業者の一つであるCloudflare社が2019年から大規模障害を連発させている。

2019年は7月2日午後11時50分ごろ(日本時間)から約30分間にわたり、世界中で全面的にダウン。端的な原因はオペミス(問題のあるソフトウェアをデプロイ)と言われている。

2020年は日本時間の4月15日午前0時31分から午前4時52分まで、ダッシュボードおよびAPIがダウン。こちらも原因はオペミス(データセンター内でパッチ盤からケーブルを引っこ抜いてしまった)であった。

落ちてはいけないクラウドサービスの割には正直緊張感が無さすぎると思う。

クラウドサービスでこういう体たらくな事件が連発すると、「クラウドからオンプレに」っていう話に繋がっていくと思う。

クラウド事業者は緊張感をもってオペレーションに取り組んでほしい。

【参考】
https://www.itmedia.co.jp/news/articles/1907/03/news068.html
https://www.itmedia.co.jp/news/articles/2004/20/news076.html