Microsoft Teams、再び障害(前回は2022年7月)~原因はオペミスか!?~


マイクロソフトは、2023年1月25日午後4時頃から最大で約5時間半に渡り、Microsoft AzureやMicrosoft 365、Microsoft Teamsなど幅広いサービスがほぼ全世界で利用できなくなっていた大規模障害について、予備的な報告書を公開しました。

まず原因について。同社のワイドエリアネットワークに対して行われた設定変更が全体に影響したと説明しています。

具体的には、設定変更のためにあるルーターにコマンドを送ったところ、そのルーターがWAN内のすべてのルーターに対して誤ったメッセージを送信。その結果、WAN内のすべてのルーターが再計算状態に突入し、適切にパケットを転送できなくなったことが原因とのこと。

問題の発端となったルーターは、マイクロソフトの認証プロセスで検証されていなかったことも付け加えられています。

同社としては、障害発生から約7分後に、DNSとWANに関する問題を検出し調査を開始。発生から1時間5分後にネットワークが自動的に回復し始め、ほぼ同じくして問題の引き金となった問題のあるコマンドが特定されたとのことです。

2時間後にはほぼすべてのネットワーク機器が回復したことが観測され、2時間半後にはネットワークが最終的に復帰したことが確認されたと報告されています。

ただしWAN自身が備えていた健全性維持システム、例えば健全でないデバイスを特定して削除するシステム、ネットワーク上のデータの流れを最適化するトラフィックエンジニアリングシステムなどがWAN自身の障害によって停止してしまっていたため、これを手動で再起動。

これによりWANを最適な動作状態に回復させるまでネットワークの一部でパケットの損失が増加し、約5時間時40分後にこれが完了したとのことです。

今後の対策として、影響度の高いコマンドの実行を遮断し、デバイス上でのコマンド実行は、安全な変更ガイドラインに従うことを義務付ける予定とのことです。


--
【2023/1/26】
米マイクロソフト(MS)のビジネスチャットアプリ「Teams(チームズ)」などのサービスが2023年1月25日、一部地域でつながりにくくなった。同社は公式サイトで、チームズやメールソフト「Outlook(アウトルック)」などのビジネスソフトパッケージ「Microsoft365」の複数のサービスでアクセスできない可能性があると発表した。「ネットワークに問題がある可能性を確認し、次のトラブルシューティングに向けた測定を行っている」と説明している。

SNS(交流サイト)などからインターネット上の障害を推定するサイト「ダウンディテクター」では同日午後4時ごろから、日本や欧米各国でチームズなどのソフトに関する報告が増えていた。