Atualizações do produto

Como detectar BGP Zombies: anunciamos o ThousandEyes BGP Stuck Route Observatory

Por Kemal Sanjta, Antonis Chariton & Iliana Xygkou
| | 9 leitura minuciosa

Este post também está disponível para: United States (English), Germany (Deutsch), Mexico (Español), Spain (Español), France (Français), Canada (Français), Italy (Italiano), Japan (日本語), Korea (한국어) & Mainland China (简体中文).

Resumo

O ThousandEyes BGP Stuck Route Observatory facilita para os operadores de rede a detecção de rotas presas, também conhecidas como rotas zumbis ou fantasmas (informações de roteamento desatualizadas que podem criar problemas operacionais graves), e a identificação das redes que podem estar causando o problema.


A perda de pacote e outros problemas relacionados à rede prejudicam as redes há décadas. Muitas vezes, as conexões de rede falham ou ficam lentas, afetando a experiência do usuário. Para resolver esses problemas, os operadores de rede geralmente enfrentam a terrível tarefa de solucionar problemas usando as ferramentas de monitoramento convencionais que não têm uma visibilidade abrangente. Além disso, muitas vezes a solução de problemas é realizada em um único ponto de vantagem, geralmente comprometido, o que limita ainda mais a visibilidade. 

Ao diagnosticar um problema, as equipes de operações de rede (NetOps) devem considerar vários motivos possíveis que contribuem com possíveis falhas, como blackholing, queda de tráfego devido à utilização excessiva, fibra suja e muito mais. Normalmente, esses problemas estão relacionados a questões no plano de dados. No entanto, ocasionalmente, eles surgem devido ao comportamento do plano de controle. Mais especificamente, as decisões de roteamento ou a ausência delas podem contribuir consideravelmente com o blackholing.

Hoje, estamos anunciando uma nova ferramenta para operadores de rede: o BGP Stuck Route Observatory, que ajuda a identificar um dos motivos comuns para blackholing, os BGP zombies. Os BGP zombies, ou rotas presas, são rotas que persistem nos roteadores, apesar de serem retiradas pelo Sistema Autônomo (AS) de origem.

Assim como nosso conhecido Internet Outages Map, o BGP Stuck Route Observatory é gratuito e está disponível para todos.

Rotas presas? BGP Zombies?

No Border Gateway Protocol (BGP), um AS, uma rede em um único controle administrativo, anuncia aos ASs vizinhos um prefixo (um bloco de endereços IP) que possui. Posteriormente, esses ASs propagam o anúncio para os vizinhos, continuando esse processo de forma iterativa até que o prefixo se torne acessível em todos os ASs na Internet. Quando o AS de origem não deseja mais que o prefixo seja acessível por meio desse caminho específico ou devido a motivos como emparelhamento inativo, congestionamento ou manutenção, ele retira o prefixo dos vizinhos. De forma semelhante ao anúncio, a retirada é propagada para todos os ASs e o prefixo é removido da tabela de roteamento global.

Os BGP zombies (rotas presas) ocorrem durante o processo de retirada, quando um roteador em um AS não consegue propagar a mensagem de retirada. Os ASs vizinhos não são notificados e continuarão a considerar a rota válida. Todos os vizinhos subsequentes farão o mesmo. Essas rotas presas indicam falsamente que um prefixo ainda é acessível, mesmo que o caminho não exista para a rota associada.

Por que acontecem rotas BGP presas? Qual é o impacto?

As rotas BGP presas podem ocorrer devido a bugs de software, problemas de hardware e de configuração ou falhas de protocolo BGP que impedem os roteadores de retirar ou atualizar as rotas adequadamente nas tabela de roteamento BGP.

As rotas BGP presas podem causar decisões de roteamento inadequadas, instabilidade da rede, loops de roteamento e interrupções no fluxo de tráfego. Essas questões causam problemas operacionais, inclusive diminuição de desempenho e interrupções.

Por que as rotas BGP presas são tão difíceis de entender?

A detecção automatizada de BGP zombies nas redes operacionais é inerentemente difícil devido à falta de dados confiáveis. Sem conhecer as intenções de cada operador de rede, é um desafio supor com confiança o motivo pelo qual uma mensagem de retirada foi enviada para um sistema autônomo. Além disso, a detecção de rotas presas exige visibilidade de vários pontos de vantagem, estrategicamente implantados em todo o mundo, abrangendo o Nível 1, o Nível 2 e outras redes, como trocas de Internet.

Como funciona o BGP Stuck Route Observatory?

Para enfrentar esses desafios, o ThousandEyes BGP Stuck Route Observatory usa prefixos de beacon para detectar as rotas presas. Os prefixos de beacon são anunciados periodicamente e retirados em momentos específicos. Saber exatamente quando um prefixo deve ser removido da tabela de roteamento aumenta de forma global a confiança ao identificar uma rota presa.

O Observatory usa uma nova metodologia de beacon que incorpora melhorias importantes nos anúncios de beacon, proporcionando a capacidade de rastrear quanto tempo leva para retirar um prefixo, se o número de rotas presas está aumentando ou diminuindo e quanto tempo os operadores levam para identificar. (Para saber mais sobre essa metodologia, confira a série de blogs sobre BGP zombies.)

Essa abordagem permite que o BGP Stuck Route Observatory forneça uma maneira simplificada de determinar se o AS foi afetado por determinados ASes no caminho (como um provedor upstream) ou se o AS pode ter um erro (em outras palavras, o problema pode estar acontecendo na rede). Ao processar dados ingeridos de centenas de monitores BGP estrategicamente implantados em todo o mundo, o BGP Stuck Route Observatory detecta as rotas presas de acordo com nossos anúncios de prefixo de beacon.

Ao inserir um número de sistema autônomo (ASN) no campo de pesquisa do BGP Stuck Route Observatory, você verá resultados que indicam se o ASN não foi afetado, se foi afetado (por outro ASN) ou se pode ser a origem do problema (ou seja, está contribuindo para o problema). Os resultados também mostrarão os diferentes caminhos do AS em que observamos o possível problema.

Figura 1. Nos resultados desse exemplo, o BGP Stuck Route Observatory atribuiu uma possível infecção de rota zumbi ao Zaki, um grande provedor de Nível 1 (ASN 6461)
Figura 1. Nesses exemplos de resultados, o BGP Stuck Route Observatory atribuiu uma possível infecção de rota zumbi ao Zaki, um grande provedor de Nível 1 (ASN 6461)

Se for indicado que o ASN pode estar afetado ou ter um erro, você pode entrar em contato com a equipe da ThousandEyes para obter mais insights sobre o escopo do problema detectado pelo BGP Stuck Route Observatory, bem como orientações sobre como identificar onde os problemas estão acontecendo.

Por que é importante detectar rotas BGP presas?

As rotas zumbis ou presas continuam predominantes na Internet, apesar das melhorias no protocolo BGP (RFC 9687) e no hardware. Conforme mencionado, essas rotas BGP presas podem diminuir o desempenho ou causar interrupções, levando, em última análise, a experiências digitais abaixo dos padrões para os usuários. Para se proteger contra esses impactos, a detecção sistemática e a análise da causa do problema são essenciais, ajudando a remover as rotas presas com mais rapidez e identificar ou descobrir as falhas que as causaram.

Além disso, monitorar sua participação nos surtos de rotas presas, bem como sua atuação nesses casos é uma parte importante de ser um membro responsável da comunidade global da Internet. A Internet é um gráfico conectado; a falha de um AS pode causar problemas nas operações de qualquer outro AS na Internet.

Ao diagnosticar qualquer problema de rede, identificar que um problema está acontecendo é apenas uma peça do quebra-cabeça. Você também precisa determinar rapidamente onde o problema está ocorrendo. Com o ThousandEyes BGP Stuck Route Observatory, as equipes de NetOps têm uma ferramenta eficiente que ajuda a responder ao “se” e fornece insights sobre o possível “onde.”


Vá além do monitoramento convencional e capacite sua equipe de NetOps para garantir as experiências digitais proativamente. Comece uma avaliação gratuita hoje mesmo.


Upgrade your browser to view our website properly.

Please download the latest version of Chrome, Firefox or Microsoft Edge.

More detail