
CoSyn: GPT-4V 수준의 비전 AI를 모두에게 제공하는 오픈 소스 도구
📋 요약
펜실베니아 대학교와 앨런 인공지능 연구소의 연구자들이 개발한 CoSyn은 오픈 소스 AI 시스템이 GPT-4V와 같은 독점 모델의 시각적 이해 능력을 맞추거나 능가할 수 있도록 하는 혁신적인 도구입니다.
📰 전체 내용
CoSyn: 오픈 소스 AI의 새로운 가능성
펜실베니아 대학교와 앨런 인공지능 연구소의 연구자들이 개발한 혁신적인 도구 CoSyn(Code-Guided Synthesis)은 오픈 소스 AI 시스템이 GPT-4V 및 Gemini 1.5 Flash와 같은 독점 모델의 시각적 이해 능력을 맞추거나 능가할 수 있도록 합니다. 이는 오픈 소스와 폐쇄형 AI 개발 간의 경쟁 구도를 재편할 가능성을 가지고 있습니다. CoSyn은 AI 개발의 중요한 병목 현상인 복잡한 시각 정보를 이해하도록 기계를 가르치기 위한 고품질 훈련 데이터의 부족 문제를 해결합니다. 인터넷에서 수백만 개의 이미지를 긁어오는 대신, CoSyn은 기존 언어 모델의 코딩 능력을 활용하여 합성 훈련 데이터를 생성합니다.
우리는 모델을 훈련시키기 위한 데이터가 부족합니다. 문서나 풍부한 주석이 있는 차트와 같은 데이터를 통해 비전 언어 모델이 이러한 이미지에 대한 질문에 답할 수 있도록 훈련시킬 데이터가 부족합니다,"라고 펜 엔지니어링 박사 졸업생이자 연구의 공동 제1저자인 Yue Yang은 VentureBeat와의 독점 인터뷰에서 설명했습니다. "이러한 이미지는 실제로 자연 사진, 예를 들어 개나 고양이, 집의 사진보다 주석을 다는 것이 더 어렵습니다.
합성 데이터 생성이 AI의 가장 큰 훈련 문제를 해결하는 방법
텍스트가 풍부한 이미지를 이해하도록 AI를 훈련시키는 문제는 오랫동안 이 분야를 괴롭혀 왔습니다. 자연 사진과 달리, 과학적 도표, 차트 및 문서는 시간과 비용이 많이 드는 광범위한 주석 작업이 필요합니다. 전통적인 접근 방식은 인터넷에서 이미지와 그 대체 텍스트 설명을 수집하는 것이었지만, 이 방법은 종종 피상적이고 법적으로 문제가 있는 훈련 데이터를 생성합니다.
CoSyn은 대부분의 텍스트가 풍부한 이미지가 코드로 생성된다는 점을 인식하여 근본적으로 다른 접근 방식을 취합니다. 연구팀의 통찰력은 이 과정을 역으로 수행하는 것이었습니다: 언어 모델의 입증된 코딩 능력을 사용하여 기본 코드를 생성한 다음, 그 코드를 실행하여 현실적인 합성 이미지를 만드는 것입니다.
하나의 직관은 실제로 차트 문서와 같은 이미지입니다. 우리는 프로그램, 코드에서 그것들을 렌더링합니다. 예를 들어, 우리는 파이썬을 사용하여 차트를 생성합니다. 우리는 라텍스나 워드를 사용하여 문서를 작성합니다,"라고 Yang은 말했습니다. "그래서 우리는 역방향으로 가는 것이 어떨까요, 예를 들어 텍스트 전용 언어 모델이 코드를 작성하는 데 매우 뛰어나다는 것이 입증되었습니다.
펜의 컴퓨터 과학 교수이자 연구의 공동 지도자인 Chris Callison-Burch는 이 접근 방식을 더 간단한 용어로 설명했습니다: "이것은 글쓰기에 뛰어난 학생에게 그림이 어떻게 생겨야 하는지를 설명하여 누군가에게 그림을 가르치도록 요청하는 것과 같습니다. 우리는 본질적으로 오픈 소스 AI의 강점을 텍스트에서 비전으로 전환하고 있습니다."
CoSyn으로 훈련된 모델이 주요 벤치마크에서 GPT-4V와 Gemini를 능가하다
결과는 놀랍습니다. 40만 개의 이미지와 270만 개의 지시 쌍으로 구성된 합성 데이터셋을 사용하여 CoSyn으로 훈련된 모델은 오픈 소스 시스템 중 최첨단 성능을 달성했으며, 텍스트가 풍부한 이미지 이해를 측정하는 7개의 벤치마크 테스트에서 독점 모델을 능가했습니다. 평균적으로, 그들의 70억 매개변수 모델은 벤치마크 스위트에서 80.9%를 기록하여 이전의 최고 오픈 소스 모델(Llama 3.2 11B)을 3.9% 포인트 차이로 능가했습니다.
더욱 놀라운 것은, 평가 데이터셋에서 어떤 예제도 사용하지 않고 훈련된 "제로샷" 모델조차도 대부분의 오픈 및 폐쇄형 모델을 능가하여 합성 데이터에서 학습한 능력의 전이 가능성을 입증했습니다. CoSyn으로 훈련된 모델은 7개의 텍스트가 풍부한 이미지 이해 벤치마크에서 GPT-4V와 Gemini 1.5 Flash를 능가했습니다. (출처: github.io/cosyn)
특히 설득력 있는 시연에서, 연구자들은 NutritionQA라는 새로운 벤치마크를 만들었으며, 이는 영양 성분표 사진에 대한 100개의 질문으로 구성되어 있습니다. 훈련을 위해 단지 7,000개의 합성 영양 성분표만을 사용하여, 그들의 모델은 수백만 개의 실제 이미지로 훈련된 다른 모델을 능가했습니다.
수백만 개의 이미지로 훈련되었음에도 불구하고, 우리는 오픈 소스 VLM이 데이터 효율성이 낮고 GPT-4V에 비해 이 새로운 작업에서 성능이 저조하다는 것을 관찰했습니다,"라고 연구자들은 그들의 논문에 썼습니다. Yang은 그 중요성을 강조했습니다: "그 큰 팩들은 데이터를 수집하고 많은 실험을 수행할 수 있는 많은 자원을 가지고 있지만, 오픈 소스 모델은 사람들에게 모델 가중치, 우리가 훈련한 데이터, 심지어 코드, 훈련 스크립트까지 접근할 수 있게 해줄 수 있습니다.
실제 기업들이 이미 품질 관리 및 자동화를 위해 비전 AI를 사용하고 있다
이 기술은 이미 다양한 산업에서 실제 응용 프로그램을 찾고 있습니다. Callison-Burch는 그의 조교 중 한 명의 회사가 케이블 설치 품질 보증을 위해 비전-언어 모델을 사용하는 예를 언급했습니다: "현장에서 설치를 수행하는 작업자들이 그들이 수행하는 과정의 사진을 찍고, 이를 사용하여 각 단계가 제대로 수행되었는지 자동으로 검증합니다."
이러한 유형의 전문화된 시각적 이해는 금융 서비스의 자동화된 문서 처리에서 제조업의 품질 관리에 이르기까지 수많은 기업 워크플로를 변혁할 수 있습니다. 합성 데이터를 사용하여 특정 시각적 작업에 대한 모델을 훈련할 수 있는 능력은 기업이 전통적으로 요구되는 대규모 데이터 수집 노력 없이도 그들의 특정 요구에 맞춘 AI 시스템을 개발할 수 있음을 의미합니다.
기업 의사 결정자들에게 이 연구는 AI 데이터 전략에 접근하는 방식의 변화를 시사합니다. "합성 데이터는 인간 주석의 노력을 제거하는 매우 유망한 방법이라고 생각합니다. 비용이 적게 들고, 대규모 데이터를 자동으로 생성할 수 있으며, 일부 저작권 문제를 피할 수도 있습니다,"라고 Yang은 언급했습니다.
AI 훈련 데이터를 더 다양하게 만드는 페르소나 기반 접근법
CoSyn의 주요 혁신 중 하나는 데이터 다양성을 보장하는 접근 방식입니다. AI 생성 콘텐츠에서 흔히 발생하는 반복적인 출력을 방지하기 위해, 시스템은 연구자들이 "페르소나 기반 메커니즘"이라고 부르는 것을 사용합니다. CoSyn이 합성 예제를 생성할 때마다, 요청과 함께 무작위로 샘플링된 페르소나—"새로운 외계 세계에 대한 아이디어를 끊임없이 떠올리는 SF 소설가" 또는 "실험실 자료를 준비하는 화학 교사"와 같은 짧은 설명—를 결합합니다.
매번 하나의 구문 데이터를 생성할 때, 우리는 무작위로 샘플링된 페르소나와 함께 나타날 것입니다,"라고 Yang은 설명했습니다. "이것은 우리가 생성한 예제의 콘텐츠와 스타일을 다양화할 것입니다. 예를 들어, 박사 과정 학생의 페르소나를 제공하면, 더 과학적이거나 학문에 관한 것을 생성할 것입니다.
이 접근 방식은 시스템이 차트, 문서, 수학 문제, 표, 다이어그램, 벡터 그래픽, 악보, 전기 회로, 화학 구조 등 9개의 다른 카테고리에서 콘텐츠를 생성할 수 있게 합니다. 연구자들은 차트를 위한 Python의 Matplotlib에서 수학적 표현을 위한 LaTeX에 이르기까지 11개의 다른 렌더링 도구를 사용했으며, 20개의 전문화된 생성 파이프라인을 지원했습니다.
오픈 소스와 대형 기술 기업 간의 격차를 줄일 수 있는 이 혁신의 의미
더 넓은 AI 산업에 대한 의미는 큽니다. OpenAI와 Google과 같은 주요 기술 기업들은 그들의 독점적인 비전-언어 기능을 개발하는 데 수십억 달러를 투자했으며, 그들의 훈련 방법과 데이터 소스는 여전히 비밀로 남아 있습니다. CoSyn은 유사한 자원 투자가 필요 없이 오픈 소스 대안이 경쟁할 수 있는 경로를 제공합니다.
"오픈 소스 모델은 여전히 폐쇄형 모델에 뒤처져 있지만, 오픈 소스 커뮤니티의 모든 노력과 자원으로 인해, 우리는 더 많은 노력을 기울이고 있습니다. 그래서 결국 우리는 따라잡을 수 있을 것이라고 생각합니다,"라고 Yang은 말했습니다.
개방성에 대한 약속은 단순히 모델을 공개하는 것 이상으로 확장됩니다. 전체 CoSyn 코드베이스, 40만 개의 이미지 데이터셋, 모든 훈련 스크립트가 공개되어 있어 전 세계의 연구자와 기업이 이 작업을 기반으로 구축할 수 있습니다.
"학문적 측면에서, 많은 연구는 개방성을 기반으로 구축됩니다. 우리는 데이터, 코드, 모든 것에 대한 접근이 필요합니다. 새로운 발견을 하고 논문에서 우리의 주장을 뒷받침하기 위해,"라고 Yang은 강조했습니다. 이 투명성은 독점 AI 시스템의 블랙박스 특성에 대한 증가하는 우려를 해결합니다.
"만약 당신이 오픈 AI의 API에만 의존한다면, 이는 당신의 과학적 발견을 증명하는 데 신뢰할 수 없을 수 있습니다. 왜냐하면 백엔드에서 무슨 일이 일어나는지 알 수 없기 때문입니다,"라고 Yang은 언급했습니다.
인간처럼 클릭하고 스크롤하며 탐색하는 AI 에이전트 교육
정적 이미지 이해를 넘어, CoSyn은 디지털 인터페이스를 자율적으로 탐색하고 복잡한 작업을 수행할 수 있는 차세대 AI 에이전트에 필수적인 기능을 개척하고 있습니다. 연구자들은 모델이 스크린샷에서 정확히 어디를 클릭해야 하는지를 가르치는 합성 "포인팅 데이터"를 개발했습니다. 이는 웹 기반 자동화를 위한 기본 요구 사항입니다.
65,000개의 클릭 주석이 있는 합성 스크린샷을 사용하여, 그들의 모델은 클릭 예측을 위한 벤치마크인 ScreenSpot에서 최첨단 성능을 달성했으며, 130만 개의 실제 스크린샷으로 훈련된 시스템을 능가했습니다.
"우리는 몇 백만 개의 합성 스크린샷만 사용하여 수백만 개의 스크린샷에서 이전 모델을 능가할 수 있습니다,"라고 Yang은 말했습니다. 이 기능은 산업이 자율적으로 지식 작업을 수행할 수 있는 AI 에이전트로 이동함에 따라 필수적입니다.
에이전트를 구현하는 방법에는 두 가지 주요 모델이 있습니다,"라고 Callison-Burch는 설명했습니다. 한 가지 접근 방식은 전문화된 API를 사용하는 것이고, 다른 하나는 "당신과 내가 하는 것과 같은 방식으로 웹 브라우징 기능을 사용하는 에이전트에 의존하는 것입니다." CoSyn과 같은 기술로 가능해진 비전 기반 접근 방식은 더 다재다능할 수 있습니다: "당신은 단순히 소프트웨어 기능을 호출하는 것이 아니라, 현재 웹 브라우저의 상태를 스크린샷으로 찍어야 합니다. 클릭할 위치를 추론하고, 마우스를 그 위치로 이동하여 클릭해야 합니다.
AI 훈련에서 저작권 위기를 피하는 합성 데이터의 방법
합성 데이터 접근 방식은 AI 훈련 데이터와 관련된 법적 문제를 해결할 수 있는 잠재적 해결책을 제공합니다. 저작권이 있는 자료로 훈련하는 것이 공정 사용에 해당하는지에 대한 소송이 진행 중인 상황에서, 합성 데이터 생성은 많은 지적 재산권 문제를 피할 수 있는 대체 경로를 제공합니다.
2023년 AI와 저작권에 대해 의회에서 증언한 Callison-Burch는 합성 데이터를 실제 훈련 데이터를 대체하는 것이 아니라 보완하는 것으로 봅니다: "합성 데이터가 다양한 훈련 데이터의 필요성을 없애지는 않는다고 생각합니다. 그것은 여전히 AI 시스템을 훈련하는 핵심 요소입니다. 그러나 그것은 그들의 능력을 정말로 놀라운 방식으로 확장할 수 있게 합니다."
이 접근 방식은 기존 지식을 저작권이 있는 자료를 직접 사용하지 않고 새로운 응용 프로그램에 전이할 수 있는 방법을 보여줍니다. "우리가 여기서 의존하는 기본적인 것은 대형 언어 모델입니다. 그것은 원래의 데이터에서 배운 것을 코드로 작성할 수 있습니다. 우리는 이제 그것을 완전히 다른 응용 프로그램, 즉 훈련 데이터 생성에 적용하고 있습니다."
합성 데이터의 현재 한계와 앞으로의 방향
그 가능성에도 불구하고, 합성 데이터 생성은 중요한 한계에 직면해 있습니다. "하나의 한계는 그러한 합성 데이터를 생성하는 모델의 편향을 상속할 수 있다는 것입니다,"라고 Yang은 인정했습니다. 시스템은 또한 다양성에 어려움을 겪을 수 있습니다: "큰 네트워크에 다양한 실행 간에 데이터를 생성하도록 요청하면 유사한 데이터를 생성할 수 있습니다."
현재 연구는 자연 사진이 아닌 텍스트가 풍부한 이미지에 초점을 맞추고 있어 일부 도메인에 즉각적인 적용 가능성을 제한합니다. "실제 사진이나 자연 이미지에 대한 합성 데이터를 생성하는 것은 어렵습니다. 또는 심지어 의료 이미지, 흉부 X선에 대해서도,"라고 Yang은 언급했지만, 의료 이미징으로 접근을 확장하기 위한 노력이 진행 중임을 시사했습니다.
앞으로 Yang은 합성 데이터 생성이 표준 관행이 될 것으로 예상합니다: "미래에는 2~3년 후, 심지어 아무것도 아닌 편집자도 모델에 다양한 능력을 가르치는 매우 중요한 구성 요소가 될 것입니다." 그러나 그녀는 최적의 결과를 위해 합성 데이터와 실제 데이터를 결합해야 할 가능성이 높다고 강조했습니다: "실제 데이터는 실제 세계의 분포를 반영할 것입니다. 단일 데이터는 대규모일 수 있으며, 더 통제 가능할 수 있습니다."
Meta에서 Amazon까지 초기 채택자들이 이미 기술을 실험하고 있다
초기 채택 신호는 이 기술이 이미 산업 관행에 영향을 미치고 있음을 시사합니다. "저는 Meta와 같은 회사들이, 일부 팀들이, Amazon도 우리의 데이터를 사용하여 그들의 모델을 훈련하려고 한다는 것을 들었습니다,"라고 Yang은 인터뷰에서 밝혔습니다.
스타트업과 소규모 기업에게는 비용 이점이 특히 중요할 수 있습니다. "일부 스타트업의 경우, 그들의 서버에 오픈 모델을 호스팅하는 것이 API를 호출하는 것보다 저렴하며, 이는 덜 통제 가능합니다,"라고 Yang은 언급했습니다.
연구팀의 모든 것을 오픈 소스로 만드는 결정은 AI 개발에 대한 더 넓은 철학을 반영합니다. Yang이 박사 학위를 마치고 앨런 연구소에 정식으로 합류할 준비를 하면서, 개방 과학에 대한 헌신은 그들의 사명에 중심이 되고 있습니다.
현재, 이러한 비전 언어 모델은 상당히 취약합니다. 올바른 데이터를 얻어야 올바른 능력을 얻을 수 있습니다,"라고 그녀는 말했습니다. "올바른 데이터를 찾으면, 모델의 능력을 향상시킬 수 있으며, 이는 사회에 이익이 될 것입니다.
단순히 설명하는 것이 아닌 행동하는 AI에 대한 비전
연구가 학문적 실험실에서 실제 응용 프로그램으로 이동함에 따라, 그 의미는 단순히 개선된 벤치마크 점수를 넘어섭니다. Yang과 그녀의 동료들은 이미 청각 장애인을 위한 수화 이해 AI에서 시각 장애인을 위한 복잡한 의료 이미지를 설명할 수 있는 시스템에 이르기까지 기술과 상호작용하는 방식을 변혁할 수 있는 응용 프로그램을 바라보고 있습니다.
저는 모델이 수화나 청각 장애가 있는 사람들을 이해할 수 있도록 하는 아이디어를 가지고 있습니다,"라고 Yang은 잠재적인 미래 응용 프로그램을 설명했습니다. "올바른 데이터를 찾으면, 모델의 능력을 향상시킬 수 있으며, 이는 사회에 이익이 될 것입니다.
Callison-Burch는 특히 로봇 공학과 과학적 발견에서 더 넓은 가능성을 봅니다: "합성 데이터는 자연적으로 발생하지 않는 데이터에 대한 많은 가능한 응용 프로그램을 열어줍니다. Yang이 앨런 연구소에서 작업한 또 다른 것은 로봇을 위한 시뮬레이션 훈련 데이터 생성입니다."
이 작업은 단순한 기술적 성과를 넘어, 근본적인 도전에 대한 혁신적인 접근 방식을 통해 주요 기술 기업의 잘 자금 지원된 노력과 경쟁할 수 있는 오픈 소스 AI 개발의 가능성을 보여줍니다. Yang이 Meta와 같은 회사의 더 높은 급여 제안을 거절하고 앨런 연구소에 합류하기로 결정한 것을 반영하며, "이러한 멀티모달 모델의 초기 단계이며, 커뮤니티에 공유할 수 있는 많은 자원, 개방 자원, 지식이 없습니다,"라고 그녀는 말했습니다.
메시지는 분명합니다: 세계를 진정으로 보고 이해할 수 있는 AI를 구축하기 위한 경쟁에서, 항상 가장 많은 자금을 가진 사람에게 유리한 것은 아니며, 가장 창의적인 솔루션을 가진 사람에게 유리할 수 있습니다.
VB Daily를 통해 비즈니스 사용 사례에 대한 일일 통찰력
상사를 감동시키고 싶다면, VB Daily가 당신을 도와줄 것입니다. 우리는 규제 변화에서 실질적인 배치에 이르기까지 생성 AI를 사용하는 회사에 대한 내부 정보를 제공하여 최대 ROI를 위한 통찰력을 공유할 수 있도록 합니다. 지금 구독하세요.
개인정보 보호정책을 읽어보세요. 구독해 주셔서 감사합니다. 더 많은 VB 뉴스레터를 확인하세요. 오류가 발생했습니다.
🌐 원본 출처
원문: CoSyn: The open-source tool that’s making GPT-4V-level vision AI accessible to everyone
출처: VentureBeat
📖 원문 기사 보기🌍 글로벌 기술 뉴스
해외 최신 기술 동향을 정확하게 번역하여
국내 독자들에게 신속하고 정확한 정보를 전달합니다.