パケット損失などのネットワーク関連の問題は、何十年にもわたってネットワークを悩ませてきました。多くの場合、ネットワーク接続の障害や速度低下が原因で、ユーザー体験に影響が及びます。このような問題を解決するために、ネットワークオペレータは、包括的な可視性が得られない従来のモニタリングツールを使用してトラブルシューティングを行うという困難な作業に直面することが少なくありません。そのうえ、トラブルシューティングは通常、影響を受けている単一の監視ポイントから実行されることが多く、可視性がさらに制限されます。
問題を診断する際、ネットワーク運用(NetOps)チームは、潜在的な障害の原因を複数考慮する必要があります。具体的には、ブラックホーリング、過剰な使用によるトラフィックのドロップ、光ファイバの汚れなどです。通常、これらの問題はデータプレーンの問題に関連しています。しかし、コントロールプレーンの動作が原因で発生する場合もあります。より具体的に説明すると、ルーティングの決定またはその欠如が、ブラックホーリングの大きな原因となる場合があります。
本日シスコは、ネットワークオペレータ向けの新しいツールである BGP Stuck Route Observatory を発表いたします。このツールは、ブラックホーリングの一般的な原因の 1 つである BGP ゾンビの特定に役立ちます。BGP ゾンビ(スタックルート)は、発信元の自律システム(AS)によって取り消されたにもかかわらずルータに存在し続けるルートです。
シスコの人気ツールであるインターネット障害マップと同様に、BGP Stuck Route Observatory は誰でも無料で利用できます。
スタックルートとは?BGP ゾンビとは?
ボーダー ゲートウェイ プロトコル(BGP)では、単一の管理下にあるネットワークである AS が、自身が所有するプレフィックス(IP アドレスのブロック)をネイバー AS にアナウンスします。その後、これらの AS がアナウンスを自身のネイバー AS に伝達し、インターネット上のすべての AS からプレフィックスが到達可能になるまで、このプロセスを反復的に継続します。起点の AS は、このパスを介してプレフィックスに到達可能であることを望まなくなった場合や、ピアリングのダウン、輻輳、メンテナンスなどの理由で、ネイバーからプレフィックスを取り消します。アナウンスと同様に、この取り消しはすべての AS に伝達され、プレフィックスがグローバル ルーティング テーブルから削除されます。
BGP ゾンビ(スタックルート)は、取り消しプロセス中に、AS 内のルータが取り消しメッセージの伝達に失敗した場合に発生します。通知されないため、ネイバー AS はそのルートが引き続き有効であると見なします。以降のすべてのネイバーが同じことを行います。これらのスタックルートは、関連するルートのパスが存在しないにもかかわらず、プレフィックスがまだ到達可能であることを誤って示します。
スタック BGP ルートが発生する理由と、その影響
スタック BGP ルートは、ソフトウェアのバグ、ハードウェアおよび設定の問題、BGP プロトコルの欠陥が原因で、ルータが BGP ルーティングテーブルのルートを適切に取り消しまたは更新できなくなることで発生する可能性があります。
スタック BGP ルートは、最適ではないルーティングの決定、不安定なネットワーク、ルーティングループ、トラフィックフローの中断につながる可能性があります。このような問題は、パフォーマンスの低下や障害など、運用上の問題を引き起こします。
スタック BGP ルートの検出が難しい理由
グラウンドトゥルースデータが不足しているため、運用ネットワークで BGP ゾンビを自動検出することは本質的に困難です。各ネットワークオペレータの意図を知らない限り、取り消しメッセージが AS に送信された理由について自信を持って推測することは困難です。さらに、スタックルートを検出するには、世界中に戦略的に展開されている、Tier 1、Tier 2、インターネットエクスチェンジなどのネットワークにまたがる複数の監視ポイントからの可視性が必要です。
BGP Stuck Route Observatory の仕組み
これらの課題に対処するために、ThousandEyes BGP Stuck Route Observatory は、ビーコンプレフィックスを使用してスタックルートを検出します。ビーコンプレフィックスとは、定期的にアナウンスされ、特定の時期に取り消されるプレフィックスのことです。ルーティングテーブルからプレフィックスをグローバルに削除すべきタイミングを正確に把握することで、ルートの停滞を特定する際の確信度が高まります。
Observatory は新しいビーコン手法を使用しています。この手法は、ビーコンアドバタイズに大幅な改善が組み込まれたものであり、プレフィックスの取り消しにかかる時間や、スタックルートの数の増減、オペレータが特定に要する時間を追跡することができます。(この方法について詳しくは、BGP ゾンビに関するブログシリーズをご覧ください。)
このアプローチにより、BGP Stuck Route Observatory は、パス上の特定の AS(上流のプロバイダーなど)によって AS が影響を受ける可能性があるかどうか、または AS にエラーがある可能性があるかどうか(つまり、問題がネットワーク内で発生している可能性があるかどうか)を判断するための合理的な方法を提供できます。BGP Stuck Route Observatory は、世界中に戦略的に展開された数百の BGP モニターから取り込まれたデータを処理して、ビーコンプレフィックスのアドバタイズに基づいてスタックルートを検出します。
BGP Stuck Route Observatory のルックアップフィールドに自律システム番号(ASN)を入力すると、その ASN が影響を受けていないか、(別の ASN によって)影響を受けている可能性があるか、または問題の発生源である可能性があるか(問題の一因となっているか)を示す結果が表示されます。結果には、潜在的な問題が確認されたさまざまな AS のパスも表示されます。
ASN が影響を受けている可能性がある、またはエラーが発生している可能性がある場合は、ThousandEyes チームに連絡して、BGP Stuck Route Observatory で検出された問題の範囲に関する詳細な洞察や、問題が発生している場所を特定するためのガイダンスを入手できます。
スタック BGP ルートの検出が重要な理由
BGP プロトコル(RFC 9687)とハードウェアが改善されているにもかかわらず、ゾンビルート(スタックルート)は依然としてインターネット上に蔓延しています。前述のように、これらのスタック BGP ルートにより、パフォーマンスが低下したり障害が発生したりする可能性があり、最終的にユーザーのデジタル体験の悪化につながるおそれがあります。このような影響から保護するには、体系的な検出と根本原因分析を行うことが不可欠です。スタックルートをより迅速に排除し、それらの原因である欠陥を特定、検出できるからです。
さらに、自分がスタックルートに関係していないか監視し、それに対処することも、グローバル インターネット コミュニティの責任あるメンバーとしての重要な役割です。インターネットは連結グラフであり、1 つの AS の欠陥が、インターネット上の他の AS の運用に問題を引き起こす可能性があります。
ネットワークの問題を診断する際に、「問題が発生していること」を特定することは、パズルの一片にすぎません。問題が発生している場所も迅速に特定する必要があるのです。NetOps チームにとって ThousandEyes BGP Stuck Route Observatory は、問題が「発生しているかどうか」を把握できるとともに、その問題が「どこで」発生している可能性があるのかに関する洞察も得られる強力なツールとなります。