우리는 이런 상황에 익숙합니다. 인터넷, SaaS, 클라우드, 모빌리티 같은 차세대 디지털 혁신이 한 차례씩 일어날 때마다 뛰어난 사용자 경험을 제공하고 보장하는 방식과 관련하여 새로운 복잡성, 새로운 종속성과 새로운 문제가 발생합니다. 그리고 이러한 변화에 적응하면서 우리는 완전히 제어하지 못하는 요소를 관리하는 방법, 소유하지 않은 인프라를 확인하고 파악하는 방법, 상시 예측이 불가능한 결과를 최적화하는 방법을 배우게 됩니다.
이제 우리는 에이전틱 AI가 견인하는 또 다른 혁신적인 변화를 목격하고 있습니다. 에이전틱 AI는 독립적으로 작동하고, 의사 결정을 내리고, 트랜잭션을 실행하는 자율 디지털 엔터티입니다. 이는 단순히 새로운 워크로드가 아니라 디지털 시스템의 운영, 상호 작용, 가치 제공 방식의 근본적인 변화를 뜻합니다.
Cisco ThousandEyes의 변치 않는 사명은 소유한 영역이든 소유하지 않은 영역이든 모든 영역의 연결된 경험 전반에서 디지털 복원력을 제공하여 모든 사용자에게 탁월한 디지털 경험을 보장하는 것입니다. 신속한 상호 작용은 연결성을 새롭게 정의하므로 엔드투엔드 서비스 보장은 더 이상 단순한 모범 사례가 아닌 비즈니스의 필수 요소입니다.
AI 에이전트 시스템 시대의 탁월한 경험 재정의
저는 ChatGPT를 매일 사용하며, 답변을 받을 때까지 기다리는 데 점차 익숙해졌습니다. 제가 원하는 건 속도가 아니라 응답의 품질과 신뢰도입니다. 이 변화는 중요합니다.
기존에 네트워크 성능은 사람 중심의 예측 가능한 사용 패턴을 확인할 수 있도록 속도와 가용성을 기준으로 측정되어 왔습니다. 하지만 빠른 속도로 결정을 내리는 AI 에이전트가 주 사용자가 되면서, 탁월한 경험이란 무엇인지 재정의해야 할 필요가 생겼습니다. 문제는 단순히 '얼마나 빠른가'가 아니라, '얼마나 안정적이고, 얼마나 정확하며, 얼마나 신뢰할 수 있는가'입니다.
사람이 생성한 트래픽과 달리 AI 에이전트는 빠르게 API 호출 버스트를 개시하고, 여러 소스에서 데이터를 집계하며, 복잡한 프로세스를 밀리초 단위로 실행합니다. 단일 AI 에이전트가 여행 일정을 예약하는 경우를 상상해 보세요. 아마 이 AI 에이전트는 항공권 API, 호텔 데이터베이스, 날씨 서비스, 결제 프로세서를 동시에 쿼리하게 될 텐데, 이때 각각의 종속성이 트랜잭션에 중요하게 작용합니다.
한 에이전트에 문제가 발생하면 다른 에이전트에 연쇄적으로 영향을 트리거할 수 있으며, 이는 응답 품질이 저하되거나 기대치를 충족하지 못하는 결과로 이어집니다. AI 에이전트가 주도적으로 운영 기능을 수행할 때 밀리초 지연이나 데이터 손상이 발생하면 비즈니스가 중단될 수 있습니다.
AI 에이전트는 실시간으로 스핀업, 스케일 아웃, 상호 작용을 수행하므로 동적인 종속성이 그물망처럼 실시간으로 연계되는 현상이 발생하는데, 이는 기존의 네트워크 관리로는 감당하기 어려운 문제입니다. 그리고 이로 인해 중요한 질문이 대두됩니다. 에이전트-에이전트 시스템의 SLE(서비스 수준 기대치)는 무엇일까요? 가용성 및 레이턴시 같은 기존의 SLA(서비스 수준 계약) 메트릭도 여전히 중요하긴 하지만, SLE는 여기에 새로운 차원을 더합니다. 즉, 워크플로가 성공적으로 완료되었는지, 데이터가 유효한지, 모든 종속성이 올바르게 응답하는지, 에이전트가 원래 의도대로 비즈니스 성과를 달성했는지 여부를 측정하는 것입니다.
사소한 중단도 자동화된 프로세스를 통해 연쇄 작용을 일으켜 중대한 비즈니스 영향을 미칠 수 있습니다. 에이전트 기반 워크플로의 중요도에 서비스 품질을 맞추려면 서비스 체인의 모든 링크가 관측 가능하고 관리가 용이해야 하며, 이러한 체인이 에이전트 로직 및 외부 요인에 따라 동적으로 변화하는 경우에도 마찬가지입니다. 단순한 원시 처리량이나 레이턴시가 아니라, 비즈니스 의도에 부합하는 워크플로를 안정적으로 완료했는지를 기준으로 성공을 측정하는 사례가 점점 더 증가할 것입니다.
중첩된 종속성 문제 해결
기존의 시스템은 예측 가능한 관계에 따라 작동합니다. 즉, 서비스 A가 서비스 B를 알려진 시퀀스대로 호출합니다. 하지만 AI 에이전트는 각각의 작업에 따라 달라지는 동적인 컨텍스트 종속 관계를 형성하므로, 확정적이지 않은 인프라 종속성 및 예측 불가능한 실패 모드가 생겨납니다.
따라서 단순히 한 공급자에 대한 종속성만 감당하는 게 아니라 이 공급자의 다른 공급자에 대한 종속성에도 노출되는 상황이 벌어집니다. 그리고 각 공급자는 시장의 발전하는 혁신 기술을 따라잡기 위해 인프라를 조정하므로 이러한 종속성은 끊임없이 유동적으로 바뀝니다. 여러 레이어에 걸쳐 일어나는 변화는 점차 확산되며 디지털 경험에 영향을 미칠 수 있습니다.
컨텍스트의 중요성: 처음부터 끝까지 모든 측면에서 가장 중요
에이전틱 환경에서 뛰어난 경험을 제공하려면 단순히 서비스 체인의 처음과 끝이 아닌, 스택의 모든 레이어를 완전히 담아낸 컨텍스트를 파악해야 합니다.
이는 이전에 분산된 애플리케이션에서 경험했던 것과 유사한 문제를 초래합니다. 사람 대신 자율적으로 작동하는 에이전트가 확산됨에 따라, 이러한 에이전트를 제로 트러스트 프레임워크에 통합하는 일이 불가피해졌습니다. 하지만 여기에는 운영상의 문제가 발생합니다. NetOps, SecOps, DevOps 분야의 여러 팀이 서로 복잡한 시스템에서 에이전트 스핀업, 보안 정책 적용, 업데이트 푸시 등의 작업을 진행하더라도, 디지털 경험을 최종적으로 제공하는 것은 여전히 엔드투엔드 책임으로 존재하기 때문입니다.
성능 저하가 발견되는 경우 누군가가 적절한 보안 정책 없이 새 에이전트를 생성한 것인지, 보안 정책이 변경되어 정상적인 작업이 차단된 것인지, 다운스트림 종속성에서 오류가 발생한 것인지, 네트워크 상태가 저하된 것인지 파악해야 합니다. 이 경우 컨텍스트가 필요합니다.
상시 가동 AI 시대를 위한 엔드투엔드 서비스 보장
시스코의 고객은 오랫동안 Cisco ThousandEyes로 엔드투엔드 트랜잭션을 모니터링하여 연결성과 탁월한 디지털 경험을 보장해 왔습니다. 이제 트랜잭션에 대한 생각의 범위를 넓혀야 합니다. 트랜잭션은 더 이상 사람이 기계와 상호 작용하는 차원에 머무르지 않습니다. 이제 사람이 제어하지 않는 네트워크 전체에서 한 에이전트가 다른 에이전트와 상호 작용하는 상황을 고려해야 하며, 도구와 컨텍스트를 위해 외부 MCP(Model Context Protocol) 서버를 사용하는 에이전트도 고려해야 합니다.
멀티 에이전트 시스템을 위한 분산 추적을 떠올려 보세요. 이는 단순히 사용자의 애플리케이션 여정을 추적하는 게 아니라 네트워크 동작, 도구 호출 타이밍, 인프라 메트릭을 비롯하여 에이전트가 어떤 방식으로 상호 작용하는지 파악하는 것입니다.
바로 이 과정에서 시스코의 통합 접근 방식은 특별한 가치를 제공합니다. Cisco ThousandEyes와 Splunk의 분산 추적 통합 같은 최신 혁신 기술은 시스코가 엔드투엔드 사용자 경험을 보장하는 방식을 보여줍니다. 에이전트 기반 시스템이 점점 더 확산됨에 따라 이러한 기능을 확장하여 에이전트-에이전트 호출 및 서드파티 종속성을 파악해야 합니다.
시스코는 이러한 기능을 제공하는 데 있어 독보적인 입지를 점하고 있습니다. 단순히 중복 포인트 솔루션을 제공하는 게 아니라, 에이전트 아키텍처가 성숙됨에 따라 함께 적응하는 통합된 디지털 복원력을 제공합니다.
Cisco ThousandEyes는 이 새로운 시대에 고객이 성공을 실현할 수 있도록 최선을 다해 지원하고 있습니다. 네트워크가 상시 가동되고, 에이전트도 중단되어서는 안 되며, 모든 상호 작용이 중요한 지금 디지털 복원력은 곧 엔드투엔드 서비스 보장을 뜻하기 때문입니다.