La pérdida del paquete y otros problemas relacionados con las redes llevan décadas afectándolas. A menudo, las conexiones de red no funcionan o se ralentizan, y esto impacta en las experiencias de los usuarios. Para resolver estos problemas, los operadores de red a menudo se enfrentan a la abrumadora tarea de solucionar problemas con herramientas de monitoreo tradicionales que carecen de visibilidad integral. Además, la solución de problemas suele realizarse desde un único punto de visibilidad, generalmente afectado, lo que limita aún más la visibilidad.
Al diagnosticar un problema, los equipos de operaciones de red (NetOps) deben considerar varias razones posibles que contribuyen a posibles fallas, como la creación de agujeros negros, la caída del tráfico debido al exceso de uso, la fibra sucia y más. Por lo general, estos problemas están relacionados con cuestiones en el plano de los datos. Sin embargo, ocasionalmente, surgen debido al comportamiento en el plano del control. De forma más específica, las decisiones de routing, o la falta de ellas, pueden contribuir significativamente a la creación de agujeros negros.
Hoy anunciamos una nueva herramienta para los operadores de red: ThousandEyes BGP Stuck Route Observatory, que ayuda a identificar una de las razones comunes para la creación de agujeros negros: los zombis de BGP. Los zombis de BGP, o las rutas atascadas, son rutas que persisten en los routers a pesar de que el sistema autónomo (AS) de origen las retiró.
Al igual que nuestro popular Mapa de interrupciones de Internet, BGP Stuck Route Observatory es gratuito y está disponible para todos.
¿Rutas atascadas? ¿Zombis de BGP?
En el protocolo de puerta de enlace de frontera (BGP), un AS, una red bajo un control administrativo único, anuncia un prefijo (un bloque de direcciones IP) que posee a sus AS vecinos. Estos AS posteriormente propagan el anuncio a sus vecinos y continúan este proceso de manera iterativa hasta que se puede acceder al prefijo desde todos los AS a través de Internet. Una vez que el AS de origen ya no desea que se pueda acceder al prefijo a través de esta ruta específica o debido a razones como la interrupción de la interconexión, la congestión o el mantenimiento, retira el prefijo de sus vecinos. De manera similar al anuncio, el retiro se propaga a todos los AS, y el prefijo se elimina de la tabla de routing global.
Los zombis de BGP (rutas atascadas) ocurren durante el proceso de retiro cuando un router en un AS no puede propagar el mensaje de retiro. No se notifica a sus AS vecinos y estos seguirán considerando válida la ruta. Todos los vecinos posteriores harán lo mismo. Estas rutas atascadas indican falsamente que todavía no se puede acceder a un prefijo a pesar de que la ruta no existe para la ruta asociada.
¿Por qué se producen rutas de BGP atascadas? ¿Cuál es el impacto?
Las rutas de BGP atascadas pueden ocurrir debido a errores de software, problemas de hardware y configuración, o fallas en el protocolo BGP que impiden que los routers retiren o actualicen correctamente las rutas en sus tablas de enrutamiento BGP.
Las rutas de BGP atascadas pueden conducir a decisiones de routing subóptimas, inestabilidad de la red, bucles de routing e interrupciones en el flujo del tráfico. Estos problemas causan problemas operativos, incluido el deterioro del rendimiento y las interrupciones de suministro.
¿Por qué las rutas de BGP atascadas son tan difíciles de detectar?
La detección automatizada de zombis de BGP en redes operativas es intrínsecamente difícil debido a la falta de datos veraces fundamentales. Sin conocer las intenciones de cada operador de red, es difícil deducir con confianza por qué se envió un mensaje de retiro a un sistema autónomo. Más allá de eso, la detección de rutas atascadas requiere visibilidad desde varios puntos de visibilidad, implementados estratégicamente en todo el mundo, que abarquen el nivel 1, el nivel 2 y otras redes, como los intercambios de Internet.
¿Cómo funciona BGP Stuck Route Observatory?
Para abordar estos desafíos, ThousandEyes BGP Stuck Route Observatory usa prefijos de baliza para detectar rutas atascadas. Los prefijos de baliza son prefijos que se anuncian periódicamente y se retiran en momentos específicos. Saber exactamente cuándo se debe eliminar un prefijo de la tabla de routing de manera global aumenta la confianza en la identificación de una ruta como atascada.
Observatory usa una nueva metodología de balizas que incorpora mejoras significativas a los anuncios de balizas, lo que nos permite realizar un seguimiento de cuánto tiempo lleva retirar un prefijo, si la cantidad de rutas atascadas está aumentando o está disminuyendo y cuánto tardan los operadores en identificarse. (Para obtener más información sobre esta metodología, consulte la Serie de blogs sobre zombis de BGP).
Este enfoque permite que BGP Stuck Route Observatory ofrezca una forma simplificada de determinar si su AS se ve potencialmente afectado por ciertos AS en la ruta (como un proveedor ascendente) o si su AS puede tener un error (en otras palabras, el problema puede encontrarse en su red). Al procesar los datos incorporados de cientos de monitores de BGP implementados estratégicamente en todo el mundo, BGP Stuck Route Observatory detecta rutas atascadas en función de nuestros anuncios de prefijos de baliza.
Cuando ingresa un número de sistema autónomo (ASN) en el campo de búsqueda de BGP Stuck Route Observatory, se le presentarán resultados que indican si el ASN no se ve afectado, si está potencialmente afectado (por otro ASN) o si es potencialmente el origen del problema (es decir, está contribuyendo al problema). Los resultados también mostrarán las diferentes rutas de AS donde observamos el problema potencial.
Si se indica que su ASN puede verse afectado o que, posiblemente, tenga un error, puede comunicarse con el equipo de ThousandEyes para obtener más información sobre el alcance del problema que detectó ThousandEyes BGP Stuck Route Observatory, así como orientación para identificar dónde está sucediendo el problema.
¿Por qué es importante detectar rutas de BGP atascadas?
Las rutas zombis o atascadas siguen siendo frecuentes en Internet, a pesar de las mejoras en el protocolo BGP (RFC 9687) y el hardware. Como se mencionó, estas rutas BGP atascadas pueden disminuir el rendimiento o causar interrupciones, lo que en última instancia conduce a experiencias digitales deficientes para sus usuarios. Para protegerse de estos impactos, la detección sistemática y el análisis de la causa raíz son vitales, ya que le ayudan a eliminar las rutas atascadas con mayor rapidez y a identificar o descubrir las fallas que las causan.
Además, monitorear su participación en brotes de rutas atascadas y actuar en consecuencia es una parte importante de ser un miembro responsable de la comunidad global de Internet. Internet es un gráfico conectado; una falla en una AS puede causar problemas en las operaciones de cualquier otro AS en Internet.
Al diagnosticar cualquier problema de red, identificar que está ocurriendo es solo una pieza del rompecabezas. También debe determinar rápidamente dónde se produce el problema. Con ThousandEyes BGP Stuck Route Observatory, los equipos de NetOps cuentan con una poderosa herramienta que los ayuda a responder las preguntas relacionadas con “si sucede” y brinda información sobre “dónde sucede posiblemente”.