Seit Jahrzehnten sind Netzwerke mit Paketverlust und anderen spezifischen Problemstellungen konfrontiert. Allzu oft brechen Netzwerkverbindungen ab oder werden langsamer, was die User Experience beeinträchtigt. Bei der Behebung dieser Probleme stehen Netzwerkbetreiber oft vor der schwierigen Aufgabe, sich auf klassische Monitoring-Tools stützen zu müssen, die keine umfassende Transparenz gewährleisten. Zudem erfolgt das Troubleshooting häufig nur an einem Beobachtungspunkt (in der Regel dem betroffenen), was die Transparenz zusätzlich einschränkt.
Bei der Diagnose eines Problems müssen Netzwerkbetriebsteams (NetOps) mehrere potenzielle Ausfallursachen in Betracht ziehen, darunter Blackholing, Traffic-Verlust aufgrund von Überlastung, verschmutzte Glasfaserverbindungen und mehr. In der Regel stehen diese Probleme mit Problemen auf Datenebene in Zusammenhang. Mitunter treten sie jedoch auch aufgrund des Verhaltens auf Kontrollebene auf. Hier sind es Routing-Entscheidungen bzw. das Fehlen derselben, die erheblich zum Blackholing beitragen können.
Mit dem ThousandEyes BGP Stuck Route Observatory geben wir heute die Einführung eines neuen Tools für NetOps-Teams bekannt, das bei der Erkennung einiger der häufigsten Ursachen für Blackholing hilft: BGP-Zombies. BGP-Zombies sind hängengebliebene Routen, die in Routern verbleiben, obwohl sie durch das ursprüngliche autonome System (AS) entfernt wurden.
Wie auch unsere beliebte Karte für Internetausfälle ist das ThousandEyes BGP Stuck Route Observatory kostenlos und für alle verfügbar.
Gesperrte Routen? BGP-Zombies?
Im Border Gateway Protocol (BGP) kündigt ein AS, also ein Netzwerk unter einer einzelnen administrativen Kontrolle, ein Präfix bzw. einen IP-Adressblock, das es besitzt, gegenüber seinen benachbarten AS an. Diese autonomen Systeme geben die Ankündigung anschließend an ihre Nachbarn weiter und setzen diesen Prozess iterativ fort, bis das Präfix von allen autonomen Systemen über das Internet erreichbar ist. Sobald vom ursprünglichen AS nicht mehr beabsichtigt wird, dass das Präfix über diesen bestimmten Pfad erreichbar ist, oder weil Gründe wie Peering-Ausfälle, Überlastung oder Wartung es erforderlich machen, entfernt das AS das Präfix von seinen Nachbarn. Wie bei der Ankündigung wird auch die Entfernung an alle autonomen Systeme weitergegeben, wobei auch das Präfix aus der globalen Routing-Tabelle entfernt wird.
BGP-Zombies bzw. hängengebliebene Routen treten beim Entfernungsprozess auf, wenn ein Router in einem AS die Nachricht zum Entfernen nicht weitergeben kann. Dadurch werden die benachbarten autonomen Systeme nicht benachrichtigt und sehen die Route weiterhin als gültig an. Gleiches gilt für alle nachfolgenden Nachbarn. Diese hängengebliebenen Routen geben fälschlicherweise an, dass ein Präfix noch erreichbar ist, auch wenn der Pfad für die zugehörige Route nicht vorhanden ist.
Warum treten hängengebliebene BGP-Routen auf? Wie wirken sie sich aus?
Hängengebliebene BGP-Routen können aufgrund von Softwarefehlern, Hardware- und Konfigurationsproblemen oder Fehlern im BGP Protokoll auftreten, die es verhindern, dass Router Routen in ihren BGP-Routing-Tabellen ordnungsgemäß entfernen oder aktualisieren.
Hängengebliebene BGP-Routen können in suboptimalen Routing-Entscheidungen, Netzwerkinstabilität, Routing-Schleifen und Störungen im Traffic-Fluss resultieren. Diese Probleme schlagen sich im Betrieb nieder, dies in Form von Performance-Einbußen oder auch Ausfällen.
Warum sind hängengebliebene BGP-Routen so schwer auszumachen?
In betrieblichen Netzwerken gestaltet sich eine automatisierte Erkennung von BGP-Zombies von Natur aus schwierig, da es an Referenzdaten fehlt. Sind die Absichten der einzelnen Netzwerkbetreiber nicht bekannt, lassen sich nur schwer verlässliche Folgerungen dazu anstellen, warum eine Nachricht zum Entfernen an ein autonomes System gesendet wurde. Darüber hinaus erfordert die Erkennung hängengebliebener Routen Einblicke von mehreren Beobachtungspunkten, die weltweit strategisch bereitgestellt werden und sich über Tier 1, Tier 2 und andere Netzwerke wie Internetknoten erstrecken.
Wie funktioniert ThousandEyes BGP Stuck Route Observatory?
Das ThousandEyes BGP Stuck Route Observatory bewältigt diese Herausforderungen anhand von Beacon-Präfixen, die die Erkennung hängengebliebener Routen ermöglichen. Beacon-Präfixe sind Präfixe, die regelmäßig angekündigt und zu bestimmten Zeiten entfernt werden. Wenn genau bekannt ist, wann ein Präfix aus der Routing-Tabelle entfernt werden sollte, lässt sich verlässlicher ermitteln, ob eine Route hängengeblieben ist.
Das Observatory bringt eine neue Beacon-Methodik zum Einsatz, die erhebliche Verbesserungen bei der Beacon-Ankündigung beinhaltet. So können wir nachverfolgen, wie viel Zeit zum Entfernen eines Präfix benötigt wird, ob die Anzahl der blockierten Routen zunimmt oder zurückgeht und wie viel Zeit die Betreiber benötigen, um sie zu identifizieren. (Noch eingehender beleuchten wir diese Methodik in unserer Blog-Reihe zu BGP-Zombies.)
Durch diesen Ansatz optimiert das ThousandEyes BGP Stuck Route Observatory die Ermittlung, ob Ihr AS potenziell von bestimmten autonomen Systemen im Pfad (z. B. ein Upstream-Provider) beeinträchtigt wird oder ob ihr AS möglicherweise fehlerhaft ist (und somit das Problem in Ihrem Netzwerk liegt). Durch die Verarbeitung von Daten, die von Hunderten rund um den Globus strategisch verteilten BGP-Monitoren erfasst werden, erkennt das ThousandEyes BGP Stuck Route Observatory hängengebliebene Routen mithilfe unserer Beacon-Präfix-Ankündigungen.
Durch die Eingabe einer AS-Nummer (ASN) in das Suchfeld des ThousandEyes BGP Stuck Route Observatory erhalten Sie Ergebnisse, die Aufschluss darüber geben, ob die ASN nicht betroffen ist, potenziell betroffen ist (von einer anderen ASN) oder potenziell die Ursache des Problems ist (d. h. sie trägt zum Problem bei). Die Ergebnisse zeigen auch die verschiedenen AS-Pfade, bei denen das potenzielle Problem beobachtet wurde.
Wenn bei ihrer ASN festgestellt wurde, dass sie potenziell betroffen oder fehlerhaft ist, können Sie sich an das ThousandEyes Team wenden, um weitere Einblicke zur Tragweite des vom ThousandEyes BGP Stuck Route Observatory erkannten Problems zu erhalten. Außerdem erhalten Sie Anleitung bei der Ermittlung, wo die Probleme auftreten.
Warum ist die Erkennung hängengebliebener BGP-Routen wichtig?
Trotz Verbesserungen am BGP-Protokoll (RFC 9687) und an der Hardware sind Zombie- oder hängengebliebene Routen im Internet noch immer gang und gäbe. Wie bereits erwähnt, können diese blockierten BGP-Routen die Performance beeinträchtigen oder Ausfälle verursachen. Letzten Endes hat dies eine suboptimale Digital Experience für Ihre User zur Folge. Zur Absicherung gegen diese Auswirkungen ist eine systematische Erkennung ebenso unerlässlich wie die Analyse der Ursachen. Erst so können Sie hängengebliebene Routen schneller beseitigen und die Fehler, die sie verursachen, lokalisieren oder aufdecken.
Hinzu kommt, dass das Monitoring Ihrer Beteiligung an Ausbrüchen von hängengebliebenen Routen und die Einleitung entsprechender Maßnahmen einen wichtigen Aspekt dabei bilden, ein verantwortungsvolles Mitglied der globalen Internet-Community zu sein. Das Internet ist ein vernetztes Diagramm: Fehlfunktionen eines autonomen Systems können Probleme bei beliebigen anderen autonomen Systemen im Internet verursachen.
Wenn es um die Diagnose von Netzwerkproblemen geht, ist die Erkennung eines Problems nur ein Teil des Puzzles. Sie müssen auch schnell ermitteln, wo das Problem auftritt. Mit dem ThousandEyes BGP Stuck Route Observatory erhalten NetOps-Teams ein funktionsstarkes Tool zur Beantwortung sowohl der Frage nach dem „Wenn“ als auch nach dem möglichen „Wo“.