Les pertes de paquets et d'autres problèmes liés au réseau affectent les réseaux depuis des décennies. Régulièrement, les connexions réseau échouent ou ralentissent, ce qui affecte l'expérience des utilisateurs. Pour résoudre ces problèmes, les opérateurs réseau doivent souvent composer avec des outils de supervision classiques qui manquent de visibilité et font donc face à un défi de taille. De plus, la résolution des problèmes s'effectue généralement depuis un point d'observation unique, qui est parfois lui-même affecté, ce qui limite encore davantage la visibilité.
Pour diagnostiquer un problème, les équipes en charge des opérations réseau (NetOps) doivent prendre en compte de multiples causes potentielles de défaillance, telles que des trous noirs au niveau du trafic, la baisse du trafic due à une surutilisation ou encore une fibre optique dégradée. Dans la plupart des cas, ces problèmes sont liés à des dysfonctionnements au niveau du plan de données. Il arrive toutefois qu'ils résultent du comportement du plan de contrôle. Plus précisément, les décisions de routage, ou leur absence, peuvent contribuer de manière significative au phénomène de blackholing (mise en trou noir du trafic).
Nous vous présentons aujourd'hui un nouvel outil destiné aux opérateurs réseau. Il s'agit de BGP Stuck Route Observatory, notre outil d'observation des routes BGP bloquées qui permet d'identifier l'une des causes courantes du blackholing : les zombies BGP. Les zombies BGP, ou routes bloquées, sont des routes qui persistent dans les routeurs malgré leur retrait par le système autonome d'origine.
Tout comme notre populaire Carte des pannes Internet, BGP Stuck Route Observatory est gratuit et accessible à tous.
Routes bloquées ? Zombies BGP ?
Dans le cadre du protocole Border Gateway Protocol (BGP), un système autonome, c'est-à-dire un réseau sous contrôle administratif unique, annonce aux systèmes autonomes voisins un préfixe (un bloc d'adresses IP) dont il est propriétaire. Ces systèmes propagent ensuite l'annonce à leurs voisins, en répétant ce processus de manière itérative jusqu'à ce que le préfixe soit accessible depuis tous les systèmes autonomes sur Internet. Lorsque le système d'origine ne souhaite plus que le préfixe soit accessible via ce chemin spécifique ou pour des raisons telles qu'une rupture de peering, une congestion ou une opération de maintenance, il retire le préfixe auprès de ses voisins. Comme pour l'annonce, le retrait est propagé à tous les systèmes autonomes et le préfixe est supprimé de la table de routage globale.
Les zombies BGP (routes bloquées) apparaissent au cours du processus de retrait lorsqu'un routeur d'un système autonome ne parvient pas à propager le message de retrait. Les systèmes autonomes voisins ne sont pas informés du retrait et continuent de considérer la route comme valide. Ce sera également le cas de tous les voisins suivants. Ces routes bloquées indiquent à tort qu'un préfixe est toujours accessible, alors que le chemin associé à cette route n'existe plus.
Quelle est l'origine des routes BGP bloquées et quel est leur impact ?
Les routes BGP bloquées peuvent être dues à des bugs logiciels, à des problèmes matériels ou de configuration, ou encore à des défaillances du protocole BGP qui empêchent les routeurs de retirer ou de mettre à jour correctement les routes dans leurs tables de routage BGP.
Les routes BGP bloquées peuvent entraîner de mauvaises décisions de routage, une instabilité du réseau, des boucles de routage et des perturbations au niveau du trafic. Ces problèmes engendrent des difficultés opérationnelles, notamment une dégradation des performances ainsi que des pannes.
Pourquoi les routes BGP bloquées sont-elles si difficiles à détecter ?
La détection automatisée des zombies BGP dans les réseaux en production est intrinsèquement complexe en raison d'un manque de données de référence fiables. Sans connaître les intentions de chaque opérateur réseau, il est difficile de savoir avec certitude pourquoi un message de retrait a été envoyé à un système autonome. Au-delà de cela, pour détecter les routes bloquées, il faut disposer de plusieurs points d'observation stratégiquement répartis dans le monde entier, couvrant les réseaux de niveaux 1 et 2 ainsi que d'autres réseaux tels que les points d'échange Internet.
Comment fonctionne ThousandEyes BGP Stuck Route Observatory ?
Pour relever ces défis, ThousandEyes BGP Stuck Route Observatory utilise des préfixes balises pour détecter les routes bloquées. Les préfixes balises sont des préfixes annoncés et retirés périodiquement à des moments précis. Le fait de savoir précisément à quel moment un préfixe doit être supprimé de la table de routage permet d'identifier plus facilement s'il est resté bloqué.
L'outil s'appuie sur une nouvelle méthodologie de balise qui intègre des améliorations significatives des annonces de balises, ce qui offre la possibilité de mesurer le temps nécessaire pour retirer un préfixe, de suivre l'évolution du nombre de routes bloquées et d'évaluer le délai d'identification par les opérateurs. (Pour en savoir plus sur cette méthodologie, consultez la série d'articles de blog sur les zombies BGP.)
Cette approche permet à ThousandEyes BGP Stuck Route Observatory de déterminer plus facilement si votre système autonome est potentiellement affecté par certains systèmes autonomes sur le chemin d'accès (comme un fournisseur en amont) ou s'il présente une anomalie (en d'autres termes, si le problème se situe au sein de votre réseau). En traitant les données provenant de centaines d'agents de supervision BGP stratégiquement déployés dans le monde entier, l'outil détecte les routes bloquées en fonction des annonces de préfixes balises.
Lorsque vous saisissez un numéro de système autonome (ASN) dans le champ de recherche de ThousandEyes BGP Stuck Route Observatory, celui-ci vous indique si l'ASN n'est pas affecté, s'il est potentiellement affecté (par un autre ASN) ou s'il est potentiellement à l'origine du problème (c'est-à-dire qu'il y contribue). Les résultats affichent également les différents chemins de systèmes autonomes sur lesquels le problème potentiel a été observé.
Si votre ASN est indiqué comme potentiellement affecté ou susceptible de présenter une anomalie, vous pouvez contacter l'équipe ThousandEyes afin d'obtenir davantage d'informations sur l'ampleur du problème détecté par BGP Stuck Route Observatory, ainsi que des indications pour identifier l'origine des incidents.
Pourquoi est-il important d'identifier les routes BGP bloquées ?
Les routes zombies ou bloquées restent répandues sur Internet, malgré les améliorations apportées au protocole BGP (RFC 9687) et au matériel. Comme mentionné précédemment, ces routes BGP bloquées peuvent dégrader les performances ou engendrer des pannes, ce qui nuit à la qualité des expériences digitales des utilisateurs. Pour éviter cela, il est indispensable de procéder à une détection systématique et à une analyse des causes premières. C'est ainsi que vous pouvez éliminer plus rapidement les routes bloquées et identifier les failles qui en sont à l'origine.
En outre, surveiller votre éventuelle implication dans la propagation de routes bloquées et prendre les mesures appropriées fait partie intégrante des responsabilités d'un acteur du réseau Internet mondial. Internet est un graphe interconnecté : une défaillance au niveau d'un système autonome peut perturber les opérations de n'importe quel autre système autonome sur Internet.
Lors du diagnostic d'un problème réseau, identifier qu'un incident est en cours ne constitue qu'une partie du puzzle. Vous devez également déterminer rapidement à quel endroit se produit l'incident. Avec ThousandEyes BGP Stuck Route Observatory, les équipes NetOps disposent d'un outil puissant pour analyser chaque hypothèse et obtenir des indications sur l'origine potentielle des incidents.