产品更新

保障 AI 智能体持续运行,打造出色数字体验

作者 Joe Vaccaro
| | 1 阅读时长

本文还提供以下语言版本: United States (English), Germany (Deutsch), Mexico (Español), Spain (Español), France (Français), Canada (Français), Italy (Italiano), Japan (日本語), Korea (한국어) & Brazil (Português).

摘要

如今,网络无处不在,AI 智能体日益普及,每一次互动都至关重要。对企业而言,端到端保障已成为一项迫切需求。


我们过去在电影中看到的一幕幕神奇景象如今已变为现实,互联网、SaaS、云和移动技术的发展掀起了一次次数字转型浪潮。但与此同时,提供和保障用户体验也变得更加复杂,新的依赖关系和挑战不断出现。为此,我们只得不断调整方法,试着去管理我们并不完全掌控的环境,去观察和了解不归我们所有的资产,甚至去优化我们无法充分预测的结果。   

如今,我们正在见证由智能体 AI 带来的新一轮转型。所谓智能体 AI,是指各种能够独立运行、独立决策、独立执行事务的自主数字实体。它们并非新型工作负载,本质上只是数字系统运行、交互和提供价值的全新方式。 

Cisco ThousandEyes 的使命是助力企业为所有影响连接体验的网域(无论是否由企业拥有)建立数字韧性,保障每一位用户都能获得出色的数字体验。对企业而言,随着高速交互正在重新定义连接体验,端到端保障已经不再是一项最佳实践,而是俨然成为一项迫切的业务需求。 

重新定义 AI 智能体系统时代的出色体验

我几乎每天都会使用 ChatGPT,也早已习惯了等待回复。我在意的不是回复速度,而是回复的质量和可信度。这种转变很值得重视。 

过去,网络性能是由速度和可用性来衡量的,代表着以人为主导的可预测使用模式。但是,随着网络的主要用户从人变为 AI 智能体,决策速度变得快如闪电,我们也需要重新定义出色体验的衡量标准:不只关注“多快”,还要关注“多可靠”、“多准确”以及“多可信”。

与人类用户生成的流量不同,AI 智能体可以快速发起大量 API 调用、汇聚来自多个来源的数据,并以毫秒为单位执行复杂的流程。不妨想象一下使用单个 AI 智能体预订行程的场景:它可能会同时查询航班 API、酒店数据库、天气预报服务和支付处理程序,而每一项查询(依赖关系)都对完成任务至关重要。 

当一个智能体出现问题时,有可能会像雪崩一样影响其他智能体,导致它们的回复质量不佳或低于预期。如果出现问题的 AI 智能体发挥着关键作用,任何毫秒级延迟或数据损坏都会导致业务中断。 

此外,AI 智能体能够瞬间启动、扩展和交互,这就导致网络中的依赖关系不断动态变化,给传统网络管理方法带来挑战。一个关键问题随之出现:智能体间系统的服务级别预期 (SLE) 是什么?虽然可用性和延迟等传统服务级别协议 (SLA) 指标仍然很重要,但 SLE 还涉及一系列新考虑事项:衡量工作流程是否成功完成、数据是否有效,以及是否所有依赖关系都给出了正确的回复(尤其是“智能体是否达成了预期的业务成果?”)。

在这个复杂的过程中,即使是轻微的中断也会扰乱整个自动化过程,造成重大业务影响。要确保服务质量足以支持智能体驱动的工作流程发挥预期的重要作用,企业必须能够观察和管理服务链中的每一条链路,哪怕服务链会随着智能体逻辑和外部因素的变化而动态变化,也是如此。如果能在原本的吞吐量或延迟指标之外,进一步按照业务意图衡量工作流程是否成功完成,就能提高智能体的可靠性。

厘清依赖关系之上的依赖关系

传统系统基于可预测的关系运行,例如:服务 A 按照已知的顺序调用服务 B。与之相对,AI 智能体会动态创建依赖于情景的关系,这些关系会随每项任务而变化,导致基础设施中的依赖关系并不确定且故障模式难以预测。 

这就带来了一个难题:您不仅依靠某一家提供商的依赖关系,还要依靠其上游提供商的依赖关系。由于提供商会不断调整其基础设施来紧跟市场创新步伐,这些依赖关系也会不断变化。即使相隔几层的依赖关系发生变化,也可能会产生连锁反应,影响您提供的数字体验。

情景信息是破局关键:自上而下、端到端

要在智能体时代打造出色体验,不仅需要了解整个服务链的端到端情景信息,还需要自上而下了解每一层依赖关系。

这就好比过去在管理分布式应用时遇到的挑战。随着我们越来越多地使用智能体来替我们执行任务,我们不可避免地需要将它们引入零信任框架。这就给运营带来了挑战:由于 NetOps、SecOps 和 DevOps 团队需要使用复杂的系统来运行智能体、应用安全策略或推送更新,所以打造数字体验仍是一项端到端职责。

当性能下降时,您需要确定可能的原因,例如:在缺少适当安全策略的情况下生成了新智能体;安全策略发生更改,并阻止了预期的操作;下游依赖项出现故障;或者网络状况变差。为此,您需要了解情景信息。 

在 AI 无中断运行的时代提供端到端保障

长期以来,客户一直将 Cisco ThousandEyes 用于监控端到端事务,以保障稳定的网络连接和出色的数字体验。如今,我们需要扩大我们对事务的认识,不再将其局限于人类与机器之间的交互。我们需要考虑到智能体会与不受我们控制的网络中的其他智能体通信,会依赖外部模型上下文协议 (MCP) 服务器获取工具和情景信息。 

这意味着需要在多智能体系统中进行分布式跟踪,不仅要通过应用跟踪用户旅程,还要搞清智能体的交互方式,包括网络行为、调用工具的具体时间,以及各种基础设施指标。 

在这方面,思科的集成方法可以发挥巨大价值。我们近期的创新(例如 Cisco ThousandEyes 与 Splunk 实现了分布式跟踪功能的集成)表明,我们可以为用户体验提供端到端保障。随着智能体驱动的系统日益普遍,企业将需要引入这项功能来了解智能体之间的调用情况,以及智能体与第三方智能体的依赖关系。

凭借得天独厚的优势,思科能够提供随智能体架构发展而不断调整的一体化数字韧性解决方案,其优势远非简单叠加的单点解决方案所能比拟。 

如今,网络无处不在,AI 智能体日益普及,每一次互动都至关重要。企业必须依靠端到端保障来打造数字韧性。Cisco ThousandEyes 致力于提供优秀的端到端保障解决方案,助力客户在这个新时代蓬勃发展。


相关文章:监控 AI 智能体,保障生产部署

Upgrade your browser to view our website properly.

Please download the latest version of Chrome, Firefox or Microsoft Edge.

More detail