产品更新

准确识别 BGP 僵尸路由:ThousandEyes BGP Stuck Route Observatory 隆重上线

作者 Kemal Sanjta, Antonis Chariton & Iliana Xygkou
| | 2 阅读时长

本文还提供以下语言版本: United States (English), Germany (Deutsch), Mexico (Español), Spain (Español), France (Français), Canada (Français), Italy (Italiano), Japan (日本語), Korea (한국어) & Brazil (Português).

摘要

ThousandEyes BGP Stuck Route Observatory 可以帮助网络运维人员轻松检测僵滞路由,并查明可能导致该问题的具体网络。僵滞路由也称为“僵尸路由”或“幽灵路由”,是指可能造成重大运维问题的过时路由信息。


数十年来,丢包和其他网络相关问题一直深深困扰着网络领域的从业者。这些问题常会导致网络连接出现故障或速度减慢,进而影响用户体验。为了解决这些问题,网络运维人员通常只能使用缺乏全面可视性的传统监控工具勉为其难地进行故障排除。而这类故障排除通常是在受影响的单个观测点进行的,这进一步导致可视性十分有限。

在诊断问题时,网络运维 (NetOps) 团队必须考虑多种可能造成潜在故障的原因,例如黑洞路由、由于过度使用而导致流量被丢弃、光纤污染等等。这些问题通常与数据平面问题相关,但有时也可能是由控制平面行为造成的。例如,路由决策(或缺乏路由决策)有很大可能会造成黑洞路由。

如今,我们为网络运维人员带来了福音:BGP Stuck Route Observatory。这款新工具可以帮助确定造成黑洞路由的一个常见原因:BGP 僵尸路由。BGP 僵尸路由(也称为僵滞路由)是指源自治系统 (AS) 被撤回后,仍存在于路由器中的路由。

与我们备受喜爱的互联网中断分布图一样,BGP Stuck Route Observatory 也将免费开放给所有用户。

僵滞路由?BGP 僵尸路由?

在边界网关协议 (BGP) 中,自治系统(AS,即处于单一管理控制下的网络)会向其邻居 AS 通告其前缀(IP 地址块)。然后,这些邻居 AS 会将该通告传播到它们的邻居。这个过程会不断重复,直到互联网中的所有 AS 都能访问该前缀。当发起通告的 AS 不再希望通过此特定路径访问其前缀,或者出现对等连接关闭、拥塞或维护等情况时,它就会从邻居 AS 中撤回前缀。与通告过程类似,撤回信息会依次传播到所有 AS,相关前缀也会从全局路由表中移除。

在这个撤回过程中,如果 AS 中的路由器无法传播撤回消息,就会出现 BGP 僵尸路由(僵滞路由)。邻居 AS 不会收到撤回通知,并会继续认为该路由是有效的。当然,它们的所有邻居也都是如此。这些僵滞路由会错误地指示该前缀仍可访问,但实际上,该前缀关联的路由已经不再作为路径而存在了。

BGP 僵滞路由是怎么产生的?它有哪些影响?

造成 BGP 僵滞路由的原因有很多,包括软件漏洞、硬件和配置问题,以及 BGP 协议缺陷等。凡是会阻止路由器在其 BGP 路由表中正确撤回或更新路由信息的问题,都是可能的原因。

BGP 僵滞路由可能会导致路由决策欠佳、网络不稳定、路由环路,以及流量中断。这些网络问题会进一步造成性能下降、业务中断等运维问题。

为什么 BGP 僵滞路由如此难以识别?

由于缺少真实可靠的数据,所以在运营网络中自动检测 BGP 僵尸路由一直颇具挑战性。毕竟,在不了解各个网络运营商具体意图的情况下,很难信心十足地做出向 AS 发送撤回消息的判断。不仅如此,要检测僵滞路由,就必须拥有基于多个观测点的全面可视性,而且这些观测点必须从战略角度部署在全球不同地点,涵盖 1 级网络、2 级网络和其他网络(例如互联网交换中心)。

BGP Stuck Route Observatory 是如何工作的?

为了应对上述挑战,ThousandEyes BGP Stuck Route Observatory 使用信标前缀来检测僵滞路由。信标前缀是在特定时间定期通告和撤回的前缀。只要能准确了解何时应从全局路由表中删除某个前缀,就能更有信心地识别僵滞路由。

Observatory 采用一种新的信标方法。该方法对信标通告进行了重大改进,可以让我们跟踪某个前缀多久会被撤回、僵滞路由的数量是否有所增加或减少,以及操作人员需要多久才能发现问题。(有关此方法的更多信息,请参阅 BGP 僵尸路由博客系列。)

基于这种新方法,BGP Stuck Route Observatory 可以帮助您简单快捷地确定您的 AS 是否可能受到路径上某些 AS(例如上游提供商)的影响,或者您的 AS 是否可能存在错误(即问题是否可能出在您的网络上)。我们从战略角度在全球各地部署了数百个 BGP 监控器。BGP Stuck Route Observatory 会处理来自这些监控器的数据,然后根据我们的信标前缀通告检测僵滞路由。

只需在 BGP Stuck Route Observatory 的查找字段中输入自治系统编号 (ASN),即可查看该 ASN 的状态:未受影响、可能(受其他 ASN)影响,或可能是问题根源(即它造成了问题)。结果中还会显示我们观察到潜在问题的其他 AS 路径。

图 1. 在这些结果示例中,BGP Stuck Route Observatory 将某个潜在僵尸路由问题归因于 Zayo,这是一家大型 1 级运营商 (ASN 6461)
图 1. 在这些结果示例中,BGP Stuck Route Observatory 将某个潜在僵尸路由问题归因于 Zayo,这是一家大型 1 级运营商 (ASN 6461)

如果结果显示您的 ASN 可能受到影响或存在错误,您可以联系 ThousandEyes 团队来深入了解 BGP Stuck Route Observatory 检测到的问题的影响范围,并请他们指导您确定问题发生在何处。

为什么识别 BGP Stuck Route Observatory 如此重要?

虽然 BGP 协议 (RFC 9687) 和硬件都已得到改进,但僵尸路由或僵滞路由仍然在互联网中普遍存在。如前所述,这些 BGP 僵滞路由可能会降低性能或造成中断,进而影响用户的数字体验。要防止这些影响,关键是做好系统检测和根本原因分析,这样才能更早地消除僵滞路由,并查明或发现造成这些路由的缺陷。

另一方面,监控自己的 AS 是否造成了僵滞路由问题并及时采取行动,也是我们作为全球互联网社区的一员所应承担的责任。互联网是一个高度互联的环境,任何一个 AS 的缺陷都可能导致互联网中的其他 AS 出现运维问题。

在诊断任何网络问题时,确定问题是否真实存在只是一方面,快速判明问题发生的位置也很重要。ThousandEyes BGP Stuck Route Observatory 为 NetOps 团队提供了一个强大的工具,不仅能帮其确定问题“是否存在”,还能为其指明问题可能“发生在何处”。


摆脱传统监控方法的局限性,赋能您的 NetOps 团队主动保障用户的数字体验。欢迎免费试用 ThousandEyes,体验它的强大之处。


Upgrade your browser to view our website properly.

Please download the latest version of Chrome, Firefox or Microsoft Edge.

More detail