AI 에이전트, 신뢰성 문제 직면하며 재구축 시대 돌입

📋 요약

엔터프라이즈 AI 에이전트가 프로덕션 환경으로 이동하며 신뢰성 문제에 직면하고 있습니다. LLM 성능만으로는 부족하며, 충돌 복구, 상태 보존, 비용 관리 등 견고한 워크플로가 필수적입니다. 많은 기업이 1세대 에이전트 아키텍처를 재검토하고, 워크플로 오케스트레이션, 관측 가능성, 거버넌스를 중심으로 신뢰할 수 있는 기반을 재구축하고 있습니다.

VB Event VB Staff 2026년 5월 29일 오전 8시(PT) Preeti Somal, Temporal Technologies 엔지니어링 수석 부사장

엔터프라이즈 AI 에이전트가 프로덕션 환경으로 이동함에 따라, 조직들은 증가하는 신뢰성 문제에 직면하고 있습니다. 많은 팀들이 대규모 언어 모델(LLM) 성능만으로는 에이전트가 프로덕션 환경에서 성공할지 여부를 결정할 수 없다는 것을 발견하고 있습니다. 장기 실행 AI 워크플로는 충돌(crashes)에서 살아남고, 상태를 보존하며, 장애로부터 복구하고, 추론 비용을 관리하며, API, 도구 및 엔터프라이즈 시스템 간에 조정해야 합니다. 신속한 배포에 중점을 둔 첫 번째 물결 이후, 조직들은 이제 1세대 구현을 재검토하고, 워크플로 오케스트레이션(workflow orchestration), 관측 가능성(observability), 거버넌스(governance) 및 복구(recovery)를 중심으로 초기 에이전트 아키텍처를 재설계해야 한다고 Temporal Technologies의 엔지니어링 수석 부사장 Preeti Somal이 뉴욕에서 열린 최신 AI Impact Series 행사에서 말했습니다. Somal은 “저희에게 찾아오는 많은 고객들이 동일한 에이전트의 버전 2.0을 구축하고 있습니다.”라고 말했습니다. “그들은 정말 빠르게 움직여야 했지만, 기반 시스템(plumbing)을 제대로 처리하지 못했습니다. 시스템이 충돌하고 망가진 후, 그들은 신뢰할 수 있는 기반(reliable foundation)으로 재구축하고 있습니다.” 현재 에이전트형 AI(agentic AI)의 물결보다 앞서 인프라를 구축한 워크플로 오케스트레이션 회사 Temporal에게 이러한 변화는 더 광범위한 엔터프라이즈의 인식을 반영합니다. 즉, 프로덕션 AI 시스템은 내구성 있는 실행(durable execution), 상태 관리(state management), 워크플로 가시성(visibility into workflows) 및 모델 또는 다운스트림 시스템(downstream systems)이 실패할 때 복구할 수 있는 메커니즘을 필요로 한다는 것입니다.

에이전트형 AI(Agentic AI)가 익숙한 엔지니어링 문제를 가속화했습니다

“이러한 패턴이 반드시 새로운 것은 아닙니다.” Somal이 말했습니다. “AI가 단지 그것들을 가속화할 뿐입니다.”

에이전트형 시스템은 종종 여러 서비스, 모델, API 및 도구에 걸쳐 장기 실행되는 다단계 프로세스(multi-step processes)를 포함하기 때문에 추가적인 복잡성을 야기합니다. 단일 워크플로는 여러 대규모 언어 모델(large language models)을 호출하고, 검색 시스템(retrieval systems)에 접근하며, 외부 애플리케이션을 트리거하고, 몇 시간 또는 며칠 동안 상태를 관리할 수 있습니다. Somal은 엔지니어링 문제들이 종종 배포 후에야 나타난다고 말했습니다. 그녀는 “사람들은 에이전트를 작성하지만 에이전트가 충돌하면 어떻게 되는지에 대해 생각하지 않습니다.”라고 말했습니다. “전체 에이전트 흐름을 다시 실행해야 할까요?” 비용 제약(cost constraints) 하에 운영되는 기업에게는 이 질문의 답이 중요합니다. 장애 후 워크플로를 다시 시작하면 추론 비용(inference expenses)이 증가하고, 지연 시간(latency)이 늘어나며, 좋지 않은 고객 경험(customer experiences)을 초래할 수 있습니다. Somal은 현재 상황을 엔터프라이즈 클라우드 도입(enterprise cloud adoption)의 초기 시기와 비교했습니다. 당시 조직들은 워크로드가 장기적으로 지속되려면 기반 아키텍처(underlying architectures)를 재설계해야 한다는 점을 고려하기 전에 워크로드를 마이그레이션(migrating workloads)하는 데만 급급했습니다. 그녀는 “애플리케이션을 현대화하지도 않은 세상에서 AI를 서두르는 것은 클라우드에서 일어났던 리프트 앤 시프트(lift-and-shift)를 조금 연상시킵니다.”라고 말했습니다. “모두가 클라우드에 더 많은 돈을 쓰고 있지만 거기서 가치를 얻지 못했다는 것을 깨달았습니다.”

장기 실행 에이전트(long-running agents)가 새로운 아키텍처를 강제하는 이유

엔터프라이즈 워크플로는 점점 더 긴 시간 동안, 때로는 여러 시간 동안 도구 및 시스템과 상호 작용하면서 에이전트가 실행되는 것을 포함합니다. 워크플로가 시간이 지남에 따라 지속될 때 신뢰성 문제(reliability challenges)는 더욱 복잡해지며, 이는 AI 대화에서 종종 상호 교환적으로 다루어지는 두 가지 개념인 상태(state)와 메모리(memory) 모두에 영향을 미칩니다. 상태는 워크플로 실행(workflow execution)과 관련이 있습니다. 여기에는 에이전트가 프로세스의 어느 단계에 있는지, 어떤 작업이 이미 완료되었는지, 그리고 장애 후 복구가 어디서 재개되어야 하는지가 포함됩니다. 메모리 또는 컨텍스트(context)는 에이전트가 상호 작용 또는 작업 전반에 걸쳐 전달하는 정보를 포착합니다. Somal은 “에이전트의 상태는 어떤 단계와 어떤 작업이 수행되었는지, 그리고 무언가 충돌하면 어디서 복구하고 싶은지에 관한 것이며, 컨텍스트와 메모리 부분과는 다릅니다.”라고 설명했습니다. 이러한 구분은 기업이 단순한 챗봇 상호작용(chatbot interactions)을 넘어 장기 실행 비즈니스 프로세스(business processes)로 이동하기 시작할 때 점점 더 중요해집니다. Somal은 고객 Abridge와 관련된 의료 분야 예시(healthcare example)를 들었는데, 여기서 워크플로는 오디오 처리(audio processing), 요약(summarization), 모델 호출(model calls) 및 방문 후 요약 생성(after-visit generation)을 포함한 여러 단계를 통해 의사 방문(physician visits)을 처리합니다. Somal은 “그 흐름에는 한 가지 부분만 있는 것이 아닙니다.”라고 말했습니다. “비디오를 찍고 자르고, 요약을 만들고, 대규모 언어 모델(LLM)을 호출하고, 방문 후 요약을 생성하는 이 모든 것이 오케스트레이션되고 있습니다.” 기업에 대한 시사점은 성공적인 에이전트가 점점 더 중단을 견디고, 서비스 간에 조정하며, 시간이 지남에 따라 연속성을 유지할 수 있는 시스템에 의존한다는 것입니다.

결정론적 스파인(deterministic spine)의 부상

엔터프라이즈 AI 설계를 위한 유용한 프레임워크는 결정론적 스파인(deterministic spine)이라고 Somal은 말했습니다. 이것이 Temporal이 그들의 역할을 생각하는 방식입니다. 그녀는 “그것은 당신이 가고자 하는 경로를 나타냅니다.”라고 말했습니다. “그것은 두뇌를 호출하지만, 두뇌가 응답하지 않으면 다시 호출할 것입니다. 두뇌가 응답했지만 다음 단계가 실패할 경우, 그 실패가 발생한 지점부터 다시 시작할 것입니다.” 이러한 관점에서 언어 모델은 가변 출력(variable outputs)을 생성하는 확률론적 시스템(probabilistic system)으로 작동하며, 오케스트레이션 소프트웨어는 그 주변의 실행 신뢰성(execution reliability)을 유지합니다. 그리고 이 개념은 모델이 비결정론적(non-deterministic)으로 남아 있더라도 엔터프라이즈 시스템이 점점 더 일관성(consistency)을 요구하기 때문에 중요합니다. 조달 워크플로(procurement workflow), 의료 요약, 고객 지원 에스컬레이션(customer support escalation) 또는 규정 준수 프로세스(compliance process)는 모델 호출 시간 초과(model call timed out) 또는 외부 종속성 충돌(external dependency crashed) 때문에 단순히 조용히 실패(fail silently)할 수 없습니다. Somal은 “가장 중요한 것은 복구할 수 있는지, 그리고 문제가 발생했을 때 토큰 비용(token tax)을 지불하지 않는지 확인하는 것입니다.”라고 말했습니다.

신뢰성, 가시성 및 토큰 지출의 경제학

엔터프라이즈 리더들이 AI 투자 수익률(AI ROI)을 평가함에 따라, 비용 가시성(cost visibility)이 점점 더 큰 관심사가 되고 있습니다. 장기 실행 에이전트는 복잡한 워크플로 전반에 걸쳐 여러 모델 호출(model calls)을 자주 수행하여 불투명한 지출 패턴(opaque spending patterns)을 생성할 수 있습니다. Somal은 오케스트레이션의 한 가지 운영상의 이점(operational advantage)으로 비용이 어디에서 발생하는지에 대한 가시성을 설명했습니다. 워크플로가 단계별로 관측 가능하기 때문에 팀은 에이전트 프로세스 전반에 걸쳐 토큰이 어디에서 소비되고 있는지 확인할 수 있습니다. 그녀는 “단일 창(single pane of glass)에서 전체 흐름에 대한 가시성을 확보할 수 있습니다.”라고 말했습니다. “이제 여러 단계로 구성되고 여러