
Anthropic Claude Opus 4.6, 100만 토큰 컨텍스트와 에이전트 팀으로 OpenAI Codex에 도전
📋 요약
Anthropic이 Claude Opus 4.6을 출시하며 100만 토큰 컨텍스트와 '에이전트 팀' 기능을 선보였습니다. 이 모델은 OpenAI의 GPT-5.2 및 Codex에 맞서 더 긴 자율 워크플로우와 향상된 추론 능력을 제공하며, 기업 소프트웨어 시장에 큰 영향을 미칠 것으로 예상됩니다.
All Posts Featured Michael Nuñez February 5, 2026 Credit: VentureBeat made with Midjourney
Anthropic은 목요일에 주력 인공지능 모델(AI model)의 주요 업그레이드 버전인 Claude Opus 4.6을 출시했습니다. 이 모델은 더 신중하게 계획하고, 더 긴 자율 워크플로우(autonomous workflows)를 유지하며, 주요 기업 벤치마크(enterprise benchmarks)에서 OpenAI의 GPT-5.2를 포함한 경쟁사들을 능가한다고 회사는 밝혔습니다. 이번 출시는 AI 산업과 글로벌 소프트웨어 시장에 격동의 시기에 이루어졌습니다.
이번 출시는 OpenAI가 Anthropic의 Claude Code 모멘텀(momentum)에 직접적으로 도전하며 자체 Codex 데스크톱 애플리케이션(desktop application)을 출시한 지 불과 3일 만에 이루어졌으며, Anthropic의 AI 도구가 기존 기업 소프트웨어 비즈니스를 파괴할 수 있다는 투자자들의 우려로 인해 소프트웨어 및 서비스 주식에서 2,850억 달러 규모의 폭락(rout)이 발생한 가운데 나왔습니다.
처음으로 Anthropic의 Opus급 모델은 100만 토큰 컨텍스트 창(token context window)을 특징으로 하여, AI가 이전 버전보다 훨씬 더 많은 정보를 처리하고 추론할 수 있게 합니다. 회사는 또한 Claude Code에 "에이전트 팀(agent teams)"을 도입했습니다. 이는 여러 AI 에이전트(AI agents)가 코딩 프로젝트의 여러 측면에서 동시에 작업하며 자율적으로 조율(coordinating autonomously)할 수 있도록 하는 연구 미리보기 기능(research preview feature)입니다.
"우리는 가장 유능하고 신뢰할 수 있으며 안전한 AI 시스템(AI systems)을 구축하는 데 집중하고 있습니다." Anthropic 대변인은 이번 발표에 대해 VentureBeat에 말했습니다. "Opus 4.6은 계획 수립에 훨씬 더 뛰어나 가장 복잡한 코딩 작업(coding tasks)을 해결하는 데 도움이 됩니다. 그리고 새로운 에이전트 팀 기능은 사용자가 여러 에이전트에게 작업을 분할할 수 있음을 의미합니다. 하나는 프런트엔드(frontend), 하나는 API, 하나는 마이그레이션(migration)을 담당하며, 각 에이전트가 자신의 부분을 소유하고 다른 에이전트들과 직접 조율합니다."
Why OpenAI and Anthropic are locked in an all-out war for enterprise developers
이번 출시는 세계에서 가장 가치 있는 두 비상장 AI 기업인 Anthropic과 OpenAI 간의 이미 치열한 경쟁을 더욱 심화시킵니다.
OpenAI는 월요일에 자사의 Codex 인공지능 코딩 시스템(artificial intelligence coding system)을 위한 새로운 데스크톱 애플리케이션을 출시했습니다. 이 도구는 소프트웨어 개발을 단일 AI 비서(AI assistant)와의 협업 작업에서 자율 작업자(autonomous workers) 팀을 관리하는 것과 더 유사한 것으로 변화시킨다고 회사는 말합니다.
AI 코딩 비서(AI coding assistants)는 지난 한 해 동안 폭발적인 인기를 얻었으며, OpenAI는 지난 한 달 동안 100만 명 이상의 개발자가 Codex를 사용했다고 밝혔습니다. 새로운 Codex 앱은 Anthropic 및 Cursor와 같은 경쟁사로부터 사용자 및 시장 점유율(market share)을 유인하려는 OpenAI의 지속적인 노력의 일환입니다.
Anthropic의 출시 시점(OpenAI의 Codex 출시 후 불과 72시간)은 AI 개발 도구 분야의 숨 가쁜 경쟁 속도(breakneck pace)를 강조합니다.
OpenAI는 Anthropic으로부터 심화되는 경쟁에 직면해 있습니다. 최근 Andreessen Horowitz 설문조사에 따르면 Anthropic은 2025년 5월 이후 모든 프런티어 랩(frontier lab) 중 가장 큰 점유율 증가를 기록했습니다. 2024년 말 이후 소프트웨어 개발 분야의 빠른 기능 향상(capability gains)에 힘입어 현재 기업의 44%가 프로덕션 환경(in production)에서 Anthropic을 사용하고 있습니다.
데스크톱 출시는 Claude Code의 모멘텀에 대한 전략적 대응(strategic counter)입니다.
Anthropic의 발표에 따르면, Opus 4.6은 에이전트 코딩 평가(agentic coding evaluation)인 Terminal-Bench 2.0에서 최고 점수를 달성했으며, 복잡한 다분야 추론 테스트(multi-discipline reasoning test)인 Humanity’s Last Exam에서 다른 모든 프런티어 모델(frontier models)을 앞섰습니다. 금융, 법률 및 기타 분야에서 경제적으로 가치 있는 지식 작업(knowledge work tasks)의 성능을 측정하는 벤치마크(benchmark)인 GDPval-AA에서 Opus 4.6은 OpenAI의 GPT-5.2를 약 144 ELO 점수(ELO points) 차이로 능가하며, 이는 약 70%의 경우 더 높은 점수를 얻는 것으로 해석됩니다.
Anthropic의 내부 테스트에 따르면 Claude Opus 4.6은 대부분의 벤치마크 범주(benchmark categories)에서 경쟁사들을 앞서거나 동등한 수준을 보였습니다. 이 모델은 에이전트 작업(agentic tasks), 사무 작업 및 새로운 문제 해결(novel problem-solving)에서 특히 강점을 보였습니다. (출처: Anthropic)
Inside Claude Code s $1 billion revenue milestone and growing enterprise footprint
판돈은 상당합니다.
Claude Code의 재무 성과(financial performance)에 대해 질문하자, Anthropic 대변인은 지난 11월 회사가 Claude Code가 2025년 5월 정식 출시(generally available)된 지 불과 6개월 만에 10억 달러의 연환산 매출(run rate revenue)을 달성했다고 발표했다고 언급했습니다.
대변인은 주요 기업 배포(enterprise deployments) 사례를 강조했습니다. "Claude Code는 Uber의 소프트웨어 엔지니어링(software engineering), 데이터 과학(data science), 금융, 신뢰 및 안전(trust and safety)과 같은 팀에서 사용되고 있습니다. Salesforce의 글로벌 엔지니어링 조직(global engineering org) 전반에 걸쳐 전사적 배포(wall-to-wall deployment)되었으며, Accenture의 수만 명의 개발자와 Spotify, Rakuten, Snowflake, Novo Nordisk, Ramp와 같은 다양한 산업 분야의 기업에서 사용되고 있습니다."
이러한 기업 고객 확보(enterprise traction)는 치솟는 기업 가치(skyrocketing valuations)로 이어졌습니다. 이달 초 Anthropic은 3,500억 달러의 기업 가치(valuation)로 100억 달러 규모의 자금 조달 라운드(funding round)를 위한 투자 조건 합의서(term sheet)에 서명했습니다.
블룸버그는 Anthropic이 동시에 공개 매수(tender offer)를 진행 중이며, 이를 통해 직원들이 해당 기업 가치로 주식을 매각할 수 있게 하여 2021년 회사 설립 이후 회사의 가치가 급증하는 것을 지켜본 직원들에게 유동성(liquidity)을 제공할 것이라고 보도했습니다.
How Opus 4.6 solves the context rot problem that has plagued AI models
Opus 4.6의 가장 중요한 기술적 개선(technical improvements) 중 하나는 AI 산업이 "컨텍스트 로트(context rot)"라고 부르는 문제를 해결합니다. 이는 대화가 길어질수록 모델 성능 저하(degradation of model performance)가 발생하는 현상입니다.
Anthropic은 Opus 4.6이 방대한 텍스트에 숨겨진 정보를 검색하는 모델의 능력을 테스트하는 건초 더미 속 바늘 찾기 벤치마크(needle-in-a-haystack benchmark)인 MRCR v2에서 76%의 점수를 기록했다고 말합니다. 이는 Sonnet 4.5의 18.5%에 비해 크게 향상된 수치입니다.
"이는 모델이 최고 성능(peak performance)을 유지하면서 실제로 사용할 수 있는 컨텍스트 양에 있어 질적 변화(qualitative shift)입니다." 회사는 발표에서 이렇게 말했습니다.
이 모델은 또한 최대 128,000 토큰(tokens)의 출력을 지원합니다. 이는 상당한 코딩 작업이나 문서를 여러 요청으로 나누지 않고도 완료하기에 충분한 양입니다.
개발자를 위해 Anthropic은 모델과 함께 몇 가지 새로운 API 기능(API features)을 도입하고 있습니다. 적응형 사고(adaptive thinking)는 Claude가 이진 온-오프 선택(binary on-off choice)을 요구하는 대신 더 심층적인 추론(deeper reasoning)이 언제 도움이 될지 결정할 수 있도록 합니다. 네 가지 노력 수준(effort levels)(낮음, 중간, 높음, 최대)은 지능, 속도 및 비용 절충(cost tradeoffs)을 제어합니다. 그리고 컨텍스트 압축(context compaction)은 오래된 컨텍스트를 자동으로 요약하여 더 오래 실행되는 작업을 가능하게 하는 베타 기능(beta feature)입니다.
Opus 4.6은 긴 문서에 숨겨진 정보를 모델이 얼마나 잘 검색하는지 측정하는 테스트에서 이전 버전(predecessor)을 극적으로 능가했습니다. 이는 기업 코딩 및 연구 작업(enterprise coding and research tasks)에 있어 핵심적인 기능입니다. (출처: Anthropic)
Anthropic s delicate balancing act: Building powerful AI agents without losing control
AI 안전 연구(AI safety research)를 중심으로 브랜드를 구축해 온 Anthropic은 Opus 4.6이 향상된 기능(enhanced capabilities)에도 불구하고 이전 버전들과의 정렬(alignment)을 유지한다고 강조했습니다.
기만(deception), 아첨(sycophancy), 오용 협력(cooperation with misuse)과 같은 오정렬된 행동(misaligned behaviors)을 측정하는 회사의 자동화된 행동 감사(automated behavior audit)에서 Opus 4.6은 문제성 응답(problematic responses)의 "낮은 비율"을 보였으며, 동시에 "최근 Claude 모델 중 양성 쿼리(benign queries)에 응답하지 못하는 과도한 거부(over-refusals) 비율이 가장 낮았습니다."
Claude가 특히 여러 에이전트가 자율적으로 조율(coordinating autonomously)하면서 더욱 에이전트적(agentic)이 됨에 따라 Anthropic이 안전 장치(safety guardrails)에 대해 어떻게 생각하는지 질문하자, 대변인은 회사의 공개된 프레임워크(published framework)를 언급했습니다. "에이전트는 작업에서 긍정적인 영향을 미칠 엄청난 잠재력을 가지고 있지만, 에이전트가 계속해서 안전하고 신뢰할 수 있으며 믿을 수 있다는 것이 중요합니다. 우리는 작년에 안전하고 신뢰할 수 있는 에이전트를 개발하기 위한 프레임워크를 설명했으며, 이는 개발자가 에이전트를 구축할 때 고려해야 할 핵심 원칙(core principles)을 공유합니다."
회사는 모델의 향상된 기능의 잠재적으로 유해한 사용을 감지하기 위해 6개의 새로운 사이버 보안 탐지 도구(cybersecurity probes)를 개발했으며, 방어적 사이버 보안 노력(defensive cybersecurity efforts)의 일환으로 Opus 4.6을 사용하여 오픈소스 소프트웨어(open-source software)의 취약점(vulnerabilities)을 찾고 패치하는 데 도움을 주고 있다고 말했습니다.
Anthropic은 최신 모델이 기능이 향상되었음에도 불구하고 테스트된 모든 Claude 버전 중 기만 및 아첨을 포함한 문제성 행동(problematic behaviors)의 비율이 가장 낮다고 말합니다. (출처: Anthropic)
Sam Altman vs. Dario Amodei: The Super Bowl ad battle that exposed AI s deepest divisions
Anthropic과 OpenAI 간의 경쟁은 극적인 방식으로 소비자 마케팅(consumer marketing)으로 번졌습니다.
두 회사 모두 일요일 슈퍼볼 기간 동안 크게 다뤄질 것입니다.
Anthropic은 ChatGPT에서 광고 테스트를 시작하기로 한 OpenAI의 결정을 조롱하는 광고를 방영(airing commercials)하고 있으며, 슬로건(tagline)은 "AI
🌐 원본 출처
원문: Anthropic's Claude Opus 4.6 brings 1M token context and 'agent teams' to take on OpenAI's Codex
출처: venturebeat.com
📖 원문 기사 보기🌍 글로벌 기술 뉴스
해외 최신 기술 동향을 정확하게 번역하여
국내 독자들에게 신속하고 정확한 정보를 전달합니다.
