xMemory: AI 에이전트의 토큰 비용과 컨텍스트 비대화를 줄이는 방법

📋 요약

표준 RAG 파이프라인의 한계를 극복하는 xMemory는 대화를 의미론적 테마 계층 구조로 구성하여 AI 에이전트의 장기 기억 및 추론을 개선합니다. 실험 결과, xMemory는 토큰 사용량을 절반 가까이 줄여 컴퓨팅 비용을 절감하고 답변 품질을 향상시키는 것으로 나타났습니다.

Featured Ben Dickson March 25, 2026 Image credit: VentureBeat with ChatGPT

표준 검색 증강 생성(RAG) 파이프라인은 기업이 장기적, 다중 세션 대규모 언어 모델(LLM) 에이전트 배포에 사용하려고 할 때 문제가 발생합니다. 이는 영구적인 AI 비서에 대한 수요가 증가함에 따라 중요한 한계입니다. King’s College London과 The Alan Turing Institute의 연구원들이 개발한 새로운 기술인 xMemory는 대화를 검색 가능한 의미론적 테마 계층 구조로 구성하여 이 문제를 해결합니다. 실험에 따르면 xMemory는 다양한 대규모 언어 모델(LLM) 전반에 걸쳐 답변 품질과 장거리 추론을 개선하는 동시에 추론 비용(inference costs)을 절감합니다. 연구원들에 따르면, 일부 작업에서 기존 시스템과 비교하여 쿼리당 토큰(token) 사용량을 9,000개 이상에서 약 4,700개 토큰으로 줄입니다. 개인화된 AI 비서 및 다중 세션 의사 결정 지원 도구와 같은 실제 기업 애플리케이션의 경우, 이는 조직이 컴퓨팅 비용을 폭증시키지 않고도 일관된 장기 기억을 유지할 수 있는 더 안정적이고 상황 인식적인 에이전트를 배포할 수 있음을 의미합니다.

RAG는 이를 위해 만들어지지 않았다

많은 기업 대규모 언어 모델(LLM) 애플리케이션에서 중요한 기대는 이러한 시스템이 길고 다중 세션 상호 작용 전반에 걸쳐 일관성과 개인화를 유지할 것이라는 점입니다. 이러한 장기 추론을 지원하기 위한 일반적인 접근 방식 중 하나는 표준 검색 증강 생성(RAG)을 사용하는 것입니다. 즉, 과거 대화와 이벤트를 저장하고, 임베딩(embedding) 유사성을 기반으로 고정된 수의 상위 일치 항목을 검색한 다음, 이를 컨텍스트 윈도우(context window)에 연결하여 답변을 생성하는 것입니다. 그러나 전통적인 검색 증강 생성(RAG)은 검색된 문서가 매우 다양한 대규모 데이터베이스를 위해 구축되었습니다. 주요 과제는 완전히 관련 없는 정보를 걸러내는 것입니다. 대조적으로, AI 에이전트의 기억은 제한적이고 연속적인 대화 스트림이며, 이는 저장된 데이터 청크가 고도로 상관 관계를 가지며 빈번하게 거의 중복되는 내용을 포함한다는 것을 의미합니다. 단순히 컨텍스트 윈도우(context window)를 늘리는 것이 왜 작동하지 않는지 이해하려면, 표준 검색 증강 생성(RAG)이 감귤류 과일과 같은 개념을 어떻게 처리하는지 고려해 보십시오. 사용자가 "나는 오렌지를 좋아해", "나는 만다린을 좋아해"와 같은 말을 하는 많은 대화를 나누었고, 별도로 무엇이 감귤류 과일로 간주되는지에 대한 다른 대화를 나누었다고 상상해 보십시오. 전통적인 검색 증강 생성(RAG)은 이 모든 것을 의미론적으로 가깝게 취급하고 유사한 "감귤류와 같은" 스니펫을 계속 검색할 수 있습니다.

“만약 검색이 임베딩(embedding) 공간에서 가장 밀도가 높은 클러스터로 붕괴된다면, 에이전트는 선호도에 대한 매우 유사한 구절을 많이 얻는 반면, 실제 쿼리에 답변하는 데 필요한 범주 사실을 놓칠 수 있습니다.”

라고 논문의 공동 저자인 Lin Gui가 VentureBeat에 말했습니다. 엔지니어링 팀의 일반적인 해결책은 노이즈를 걸러내기 위해 검색 후 가지치기(pruning) 또는 압축을 적용하는 것입니다. 이러한 방법은 검색된 구절이 매우 다양하고 관련 없는 노이즈 패턴이 유용한 사실과 깔끔하게 분리될 수 있다고 가정합니다. 연구원들은 인간의 대화가 “시간적으로 얽혀 있기” 때문에 이 접근 방식은 대화형 에이전트 기억에서 부족하다고 썼습니다. 대화 기억은 공동 참조(co-references), 생략(ellipsis) 및 엄격한 타임라인 종속성에 크게 의존합니다. 이러한 상호 연결성 때문에 전통적인 가지치기 도구는 종종 대화의 중요한 부분을 실수로 삭제하여 AI가 정확하게 추론하는 데 필요한 필수 컨텍스트(context)를 잃게 만듭니다.

Naive RAG vs structured memory (출처: arXiv)

대부분의 팀이 사용하는 해결책이 상황을 악화시키는 이유

이러한 한계를 극복하기 위해 연구원들은 에이전트 기억이 구축되고 검색되는 방식의 변화를 제안하며, 이를 “분리에서 집계로(decoupling to aggregation)”라고 설명합니다. 사용자 쿼리를 원시적이고 중복되는 채팅 로그와 직접 일치시키는 대신, 시스템은 대화를 계층적 구조로 구성합니다. 먼저 대화 스트림을 별개의 독립적인 의미론적 구성 요소로 분리합니다. 이 개별 사실들은 더 높은 수준의 테마 구조적 계층으로 집계됩니다. AI가 정보를 회상해야 할 때, 테마에서 의미론으로, 그리고 마지막으로 원시 스니펫으로 이동하며 계층 구조를 상향식으로 검색합니다. 이 접근 방식은 중복을 피합니다. 두 대화 스니펫이 유사한 임베딩(embedding)을 가지고 있더라도, 서로 다른 의미론적 구성 요소에 할당되었다면 시스템은 이를 함께 검색할 가능성이 낮습니다. 이 아키텍처가 성공하려면 두 가지 중요한 구조적 속성의 균형을 맞춰야 합니다. 의미론적 구성 요소는 AI가 중복 데이터를 검색하는 것을 방지하기 위해 충분히 차별화되어야 합니다. 동시에, 더 높은 수준의 집계는 모델이 정확한 답변을 생성할 수 있도록 원래 컨텍스트(context)에 의미론적으로 충실해야 합니다.

컨텍스트 윈도우를 축소하는 4단계 계층 구조

연구원들은 구조화된 기억 관리와 적응형 상향식 검색 전략을 결합한 프레임워크인 xMemory를 개발했습니다. xMemory는 원시 대화 스트림을 구조화된 4단계 계층 구조로 지속적으로 구성합니다. 가장 아래에는 원시 메시지가 있으며, 이는 먼저 “에피소드(episodes)”라고 불리는 연속적인 블록으로 요약됩니다. 이 에피소드들로부터 시스템은 반복적인 채팅 로그에서 핵심적인 장기 지식을 분리하는 의미론(semantics)으로서 재사용 가능한 사실들을 추출합니다. 마지막으로, 관련 의미론들은 쉽게 검색할 수 있도록 고수준 테마로 함께 그룹화됩니다.

xMemory 아키텍처 (출처: arXiv)

xMemory는 이러한 항목들을 그룹화하는 방식을 지속적으로 최적화하기 위해 특별한 목적 함수를 사용합니다. 이는 범주가 너무 비대해져 검색 속도를 늦추거나, 너무 파편화되어 증거를 집계하고 질문에 답변하는 모델의 능력을 약화시키는 것을 방지합니다. 프롬프트(prompt)를 받으면 xMemory는 이 계층 구조 전반에 걸쳐 상향식 검색을 수행합니다. 테마 및 의미론적 수준에서 시작하여 다양하고 간결한 관련 사실 집합을 선택합니다. 이는 사용자 쿼리가 종종 여러 주제에 걸쳐 설명을 수집하거나 복잡한 다중 홉 추론을 위해 연결된 사실들을 함께 연결해야 하는 실제 애플리케이션에 중요합니다. 일단 이러한 고수준 사실 골격이 확보되면, 시스템은 연구원들이 “불확실성 게이팅(Uncertainty Gating)”이라고 부르는 것을 통해 중복을 제어합니다. 특정 세부 정보가 모델의 불확실성을 측정 가능하게 감소시키는 경우에만 에피소드 또는 메시지 수준에서 더 미세한 원시 증거를 가져오기 위해 더 깊이 파고듭니다.