오픈AI의 GPT-5.1·코덱스 맥스·구글 제미나이 3 프로 등에 모두 앞서…“최고 수준 성능 달성”

벨라벳

앤트로픽이 25일 최신 플래그십 모델 ‘클로드 오퍼스(Claude Opus) 4.5’를 발표했다. 코딩 벤치마크 SWE-벤치 베리파이드에서 80.9%를 기록, 업계 최초로 80% 벽을 돌파했다. 이는 역시 최근 발표된 오픈AI의 GPT-5.1 코덱스 맥스(77.9%)와 구글의 제미나이 3 프로(76.2%)를 모두 앞선 수치이다.

앤트로픽은 오퍼스 4.5를 ‘코딩, 에이전트, 컴퓨터 사용 분야에서 세계 최고 모델’라고 압축 소개했다. 앞서 앤트로픽은 지난 9월 소넷(Sonnet) 4.5, 10월 하이쿠(Haiku) 4.5를 출시한 바 있다.

오퍼스 4.5는 다양한 벤치마크에서 최고 수준의 성능을 달성했다. 에이전트 역량을 측정하는 대표 벤치마크인 ‘타우2 벤치( τ2-bench )’에서 88.9%를 기록해 제미나이3 프로(85.3%)를 앞섰고, 일반 문제 해결 능력을 평가하는 ARC-AGI 2, GPQA 다이아몬드 등에서도 업계 선두 수준을 보였다.

앤트로픽은 오퍼스 4.5의 API 가격을 입력 100만 토큰당 5달러, 출력 100만 토큰당 25달러로 책정했다. 이는 이전 오퍼스 4.1(입력 15달러·출력 75달러) 대비 67% 인하된 수치다. 그럼에도 경쟁사 대비 여전히 높은 수준이다. GPT-5.1은 입력·출력 시 각각 1.25달러·10달러, 제미나이3 프로는 2달러·12달러로 책정돼 있다.

앤트로픽은 오퍼스 4.5 출시와 함께 파일럿 단계에 있던 ‘크롬(Chrome)’, ‘엑셀(Excel)’과 통합도 본격 지원에 나섰다. 크롬 확장 프로그램은 모든 맥스 사용자에게, 엑셀 통합 기능은 맥스, 팀, 엔터프라이즈 사용자에게 제공된다.

이정환 기자 robotstory@irobotnews.com

저작권자 © 벨라벳신문 무단전재 및 재배포 금지