OpenAI, Responses API 업그레이드: 에이전트 스킬 및 터미널 셸 지원

📋 요약

OpenAI가 Responses API를 업데이트하여 AI 에이전트의 컨텍스트 손실 및 환각 문제를 해결합니다. 서버 측 압축, 호스팅 셸 컨테이너, 새로운 스킬 표준을 통해 에이전트에게 영구적인 기억과 터미널을 제공하여 신뢰할 수 있는 장기 디지털 작업자로 발전시킵니다.

All Posts Featured Carl Franzen February 10, 2026 Credit: VentureBeat made with GPT-Image-1.5 on fal.ai

최근까지 AI 에이전트(AI agents)를 구축하는 관행은 30초 기억력을 가진 장거리 주자를 훈련시키는 것과 다소 비슷했습니다. AI 모델에 도구와 지침을 제공할 수는 있었지만, 몇십 번의 상호작용(interactions) — 우리의 달리기 비유를 확장하자면 트랙을 몇 바퀴 돈 후 — 이 지나면 필연적으로 컨텍스트(context)를 잃고 환각 현상(hallucinating)을 일으키기 시작했습니다. OpenAI가 응답 API(Responses API)에 대한 최신 업데이트를 발표하면서 — 이 애플리케이션 프로그래밍 인터페이스(API)는 OpenAI 플랫폼의 개발자들이 웹 검색(web search) 및 파일 검색(file search)과 같은 여러 에이전트 도구(agentic tools)에 단일 호출(single call)로 접근할 수 있게 합니다 — 회사는 제한된 에이전트(limited agent)의 시대가 저물고 있음을 알리고 있습니다. 오늘 발표된 업데이트에는 서버 측 압축(Server-side Compaction), 호스팅 셸 컨테이너(Hosted Shell Containers), 그리고 에이전트를 위한 새로운 "스킬(Skills)" 표준 구현이 포함됩니다. 이 세 가지 주요 업데이트를 통해 OpenAI는 에이전트에게 영구적인 책상, 터미널(terminal), 그리고 사라지지 않는 기억을 효과적으로 제공하며, 이는 에이전트가 신뢰할 수 있는 장기 디지털 작업자(reliable, long-term digital workers)로 더욱 발전하는 데 도움이 될 것입니다.

Technology: overcoming context amnesia

자율 에이전트(autonomous agents)의 가장 중요한 기술적 장애물은 항상 장기 실행 작업의 "혼란(clutter)"이었습니다. 에이전트가 도구를 호출하거나 스크립트를 실행할 때마다 대화 기록(conversation history)이 늘어납니다. 결국 모델은 토큰 제한(token limit)에 도달하고, 개발자는 기록을 잘라내야(truncate the history) 합니다 — 종종 에이전트가 작업을 완료하는 데 필요한 바로 그 "추론(reasoning)"을 삭제하게 됩니다. OpenAI의 해답은 서버 측 압축(Server-side Compaction)입니다. 단순 잘라내기(simple truncation)와 달리, 압축(compaction)은 에이전트가 몇 시간 또는 심지어 며칠 동안 실행될 수 있도록 합니다. 전자상거래 플랫폼(e-commerce platform) Triple Whale의 초기 데이터는 이것이 안정성(stability)의 돌파구임을 시사합니다: 그들의 에이전트인 Moby는 5백만 토큰과 150번의 도구 호출(tool calls)을 포함하는 세션(session)을 정확도(accuracy) 저하 없이 성공적으로 탐색했습니다. 실질적으로 이것은 모델이 자신의 과거 행동을 압축된 상태(compressed state)로 "요약(summarize)"하여, 불필요한 정보를 제거하면서 필수 컨텍스트(essential context)를 유지할 수 있음을 의미합니다. 이는 모델을 건망증 있는 비서에서 영구적인 시스템 프로세스(persistent system process)로 변화시킵니다.

Managed cloud sandboxes

셸 도구(Shell Tool)의 도입은 OpenAI를 관리형 컴퓨팅(managed compute) 영역으로 이끌었습니다. 개발자들은 이제 OpenAI가 호스팅하는 Debian 12 환경을 프로비저닝하는 container_auto를 선택할 수 있습니다. 이것은 단순한 코드 인터프리터(code interpreter)가 아닙니다. 각 에이전트에게 다음이 사전 로드된 완전한 터미널 환경을 제공합니다:

Python 3.11, Node.js 22, Java 17, Go 1.23, Ruby 3.1을 포함한 네이티브 실행 환경(Native execution environments).
/mnt/data를 통한 영구 저장소(Persistent storage)로, 에이전트가 아티팩트를 생성, 저장 및 다운로드할 수 있습니다.
에이전트가 인터넷에 접속하여 라이브러리를 설치하거나 타사 API(third-party APIs)와 상호작용할 수 있는 네트워킹 기능(Networking capabilities).

호스팅 셸(Hosted Shell)과 영구적인 /mnt/data 저장소는 팀이 모든 AI 프로젝트를 위해 맞춤형 ETL(추출, 변환, 로드) 미들웨어(custom ETL (Extract, Transform, Load) middleware)를 구축하고 유지 관리할 필요 없이 에이전트가 Python 또는 Java를 사용하여 복잡한 데이터 변환(complex data transformations)을 수행할 수 있는 관리형 환경을 제공합니다. 이러한 호스팅 컨테이너를 활용함으로써 데이터 엔지니어는 맞춤형 인프라(bespoke infrastructure) 관리와 관련된 "다중 책임(multiple responsibilities)"을 최소화하고, 자체 샌드박스(sandboxes)를 구축하고 보안하는 오버헤드(overhead)를 제거하면서 고성능 데이터 처리 작업(high-performance data processing tasks)을 구현할 수 있습니다. OpenAI는 본질적으로 이렇게 말하고 있습니다: “지침을 주시면, 저희가 컴퓨터를 제공하겠습니다(Give us the instructions; we’ll provide the computer).”

OpenAI s Skills vs. Anthropic s Skills

OpenAI와 Anthropic 모두 이제 에이전트가 특정 작업을 실행하기 위한 지침인 "스킬(skills)"을 지원하며, 동일한 개방형 표준(open standard) — YAML 프론트매터(YAML frontmatter)가 있는 SKILL.md (마크다운) 매니페스트(SKILL.md (markdown) manifest) — 에 수렴했습니다. 어느 한쪽을 위해 구축된 스킬은 이론적으로 VS Code, Cursor 또는 사양(specification)을 채택하는 다른 플랫폼으로 이동할 수 있습니다. 실제로, 인기 있는 새로운 오픈 소스 AI 에이전트(open source AI agent)인 OpenClaw는 이 정확한 SKILL.md 매니페스트와 폴더 기반 패키징(folder-based packaging)을 채택하여, 원래 Claude를 위해 설계된 풍부한 전문 절차 지식(specialized procedural knowledge)을 상속받을 수 있었습니다. 이러한 아키텍처 호환성(architectural compatibility)은 ClawHub와 같은 플랫폼에서 커뮤니티 주도 "스킬 붐(skills boom)"을 촉진했으며, 현재 ClawHub는 스마트 홈 통합(smart home integrations)부터 복잡한 엔터프라이즈 워크플로 자동화(complex enterprise workflow automations)에 이르는 3,000개 이상의 커뮤니티 구축 확장 기능(community-built extensions)을 호스팅하고 있습니다. 이러한 교차 수분(cross-pollination)은 "스킬(Skill)"이 공급업체 종속 기능(vendor-locked feature)이 아닌 이식 가능하고 버전 관리되는 자산(portable, versioned asset)이 되었음을 보여줍니다. OpenClaw는 OpenAI의 GPT-5 시리즈와 로컬 Llama 인스턴스(local Llama instances)를 포함한 다중 모델(multiple models)을 지원하므로, 개발자들은 이제 스킬을 한 번 작성하여 이질적인 에이전트 환경(heterogeneous landscape of agents)에 배포할 수 있습니다. 그러나 OpenAI와 Anthropic의 근본적인 전략(underlying strategies)은 미래의 작업에 대한 서로 다른 비전(divergent visions)을 드러냅니다. OpenAI의 접근 방식은 개발자 속도(developer velocity)에 최적화된 "프로그래밍 가능한 기판(programmable substrate)"을 우선시합니다. 셸, 메모리, 스킬을 응답 API(Responses API)에 번들로 제공함으로써, 복잡한 에이전트를 신속하게 구축하기 위한 "턴키(turnkey)" 경험을 제공합니다. 이미 엔터프라이즈 AI 검색 스타트업(enterprise AI search startup) Glean은 OpenAI 스킬 프레임워크(OpenAI s Skills framework)를 사용하여 도구 정확도(tool accuracy)가 73%에서 85%로 향상되었다고 보고했습니다. 개방형 표준과 독점 응답 API(proprietary Responses API)를 결합함으로써, 회사는 고성능 턴키 기판(high-performance, turnkey substrate)을 제공합니다. 단순히 스킬을 읽는 것이 아니라, 관리형 Debian 12 셸(managed Debian 12 shell) 내에서 호스팅하고, 네트워킹 정책(networking policies)을 처리하며, 서버 측 압축(server-side compaction)을 적용하여 에이전트가 5백만 토큰 세션 동안 길을 잃지 않도록 보장합니다. 이는 맞춤형 실행 환경(bespoke execution environment) 구축의 오버헤드 없이 장기 실행 자율 작업자(long-running, autonomous workers)를 배포해야 하는 엔지니어들을 위한 "고성능(high-performance)" 선택입니다. 한편, Anthropic은 "전문 지식 마