インターネットは、新型コロナウィルス(COVID-19)感染の影響を受けた世界中の何十億もの人々にとって、かつてないほどの重要なライフラインになっています。多くの企業がリモートワークへ切り替え、学生の多くがオンラインで学習しています。フィットネスクラス、礼拝サービス、医療の予約等はデジタル化され、人々の交流のほとんどがオンラインで行われています。一般消費者向けのネットワークサービスは事実上、世界中の人々のつなぎ役となっており、生活を支える重要なサービスとの相互接続も担っています。そして、このトラフィックの大きな変化は決して見過ごすことができません。 Verizonは先週、ネットワーク全体のトラフィックが20%増加したと報告しています。 さらにVodafoneは50%の増加を報告しています。
それでは、この前例のない(そして予期せぬ)トラフィックの増加の中、インターネットはどのように耐えているでしょうか?
特に一般家庭のラストマイル・ネットワークのトラフィックが大幅に増加していますが、帯域不足によって起こりうるインターネットの障害例が大きく増加しているわけではありません。ただし、過去3週間の障害数は、その前の3週間と比較して、増加傾向にあります。また、主要なUCaaSサービス全体でパフォーマンスの低下が見られました。
インターネットの現在の状態を説明するために、ISP、パブリッククラウド、およびUCaaSのパフォーマンスという3つの視点からインターネットの状態を調査します。
1. インターネットサービスプロバイダーの現状
過去6週間以内のISPの障害を見ると、障害数が世界的に増加していることがわかります。 日々の障害数は様々な(ほとんど予測不可能な)理由で変化するため、日常の散発的な増加は異常ではありません。 ただし、今月の初めからCOVID-19の広範な拡散とそれに続くインターネット利用の変化に伴い、懸念される上昇軌道が見られました。
米国ではISPの障害がさらに劇的に増加し、2月上旬から3月上旬にかけてはほぼ倍増しました。 そして、この3月初旬のレベルが、ここ数週間にわたって継続しています。
全体的な障害の増加を見てきましたが、特にCogent Communications(AS 174)とHurricane Electric(AS 6939)の2つのトランジットプロバイダーは、この期間に非常に大規模な障害を経験しました。
3月11日、Cogentは30分間というかなり長い時間(インターネット標準による)サービスの中断を経験しました。
» ShareLink:本障害時のスナップショットをご覧ください。
さらに1週間後の3月18日には、CogentはISPピア、およびAmazonやLinkedInなどのサービスの到達可能性に影響を与える同規模の障害に陥りました。
» ShareLink:本障害のスナップショットをご覧ください。
さらに別の大規模障害が、3月20日金曜日の真夜中に発生しました。 Hurricane Electricでの障害は、Cogentでの障害ほど広範囲ではありませんでしたが、数百のサイトやサービスに小規模な影響を与える断続的な中断を伴いました。
» ShareLink:本障害のスナップショットをご覧ください。
2. パブリッククラウドプロバイダーのネットワークの現状
AWS、Microsoft Azure、Google Cloudなどの主要なパブリッククラウドプロバイダーは、今回のようなトラフィックの急増に対処するため、優れた設備を備えた大規模なグローバルネットワークを構築しています。 そのため、これらのネットワークではCOVID-19に関連する影響はほとんど見られていません。 過去6週間に検知された障害の傾向を見ると、世界的には比較的横ばいであり、米国内ではわずかに増加しています。
ISPと同様にクラウドネットワークの障害も一般的に予測不能であり、大規模障害の場合には、トラフィックの輻輳ではなく、ルーティングあるいはインフラの状態変化が原因であることがよくあります。ただし、企業やそのユーザーにとって幸運なことに、クラウドのパフォーマンスはここ数週間安定しています。
3. トップ UCaaSプロバイダーの到達可能性とパフォーマンス
音声、ビデオ、メッセージングサービス等のコラボレーション向けアプリケーションは、ここ数週間で使用量が劇的に増加しています。3月9日から20日までと、その前の2週間と比較したこれらのサービスのパフォーマンスを見ると、相対的にパフォーマンスの影響を受けていることがわかります。興味深いことに、プロバイダーの1つは可用性、遅延、パケットロスとジッターの改善を示しましたが、他の2つはすべての面であるレベルの劣化を示しました。
図9に示すように、過去2週間でこれらのサービスに接続するユーザーのトラフィック損失が散発的に増加しました。
たとえば、これらのプロバイダーに隣接するISPネットワークで輻輳またはインフラの問題が発生した場合、プロバイダー内の自社ネットワークの問題の場合と、プロバイダーの外部のサービスおよびその他要因によってトラフィック損失が発生した可能性があります。先週のケースでは、あるプロバイダの自社ネットワーク内の障害が急増し、この1週間に発生した障害インシデントにより、サービスの可用性が4%低下しました。
大規模なUCaaSプロバイダーネットワーク内での障害発生はかなりまれですが、最近の利用量の急増は、明らかに現在の設計想定の限界を越えつつあります。この新しい急激なサービス需要を満たすために、各社は全面的なリソース追加を実施していると伝えられています。
ところが一方、観測されたパフォーマンス問題の全てが利用者や利用量の増加に関連していたわけではありません。 たとえば、3月20日(金)、ドメインの一部がIPアドレスに解決されなかったため、多くのユーザーがプロバイダーのサービスにアクセスできませんでした。
この中断は約20分間続き、その間、サービス自体は継続して動作していましたが、DNS解決の失敗のためにサービスにアクセスできませんでした。 この問題は、その時間帯に実施されたDNSの設定変更に関連していたようで、設定変更の誤りが修正された後は、サービスへのアクセスが確認されました。
UCaaSアプリケーションでは、今後数週間および数か月間、ユーザー数と利用レベルが増加し続ける可能性が高いため、ThousandEyesは継続してパフォーマンスの監視と定期的な更新情報を提供し続けます。
ThousandEyes Global Internet Outages Mapとは?
世界中で日々起きているインターネットの障害状況をWeb上で可視化するマップ「Global Internet Outages Map」の公開を発表しました
マップはほぼリアルタイム(数分ごとに更新)で表示されるため、ISP、パブリッククラウド、UCaaS、およびエッジサービスプロバイダーのネットワークで発生している障害が常に確認できるよう是非本ページをブックマークしてください。
インターネットへの移行
これまでのところ、インターネットは膨大なトラフィックの増加に耐えられない状態ではありませんが、まだ増加の初期段階であり、次に何が起こるか誰も予測することはできません。 ThousandEyesは、Web上への障害マップ公開に加えて、グローバルインターネットのパフォーマンス監視により、皆様がCOVID-19感染拡大下でのインターネットの状態を継続して把握できるように、定期的な分析と更新情報を提供してまいります。