텍스트·이미지·토르카지노오·주변음·액션 데이터 동시 이해
트랜스포머 아키텍처 기반 개발…'코스모스 연합' 출범

▲엔비디아가 오픈 월드 파운데이션 토르카지노 '코스모스 3'를 공개했다.(이미지=엔비디아)
▲엔비디아가 오픈 월드 파운데이션 토르카지노 '코스모스 3'를 공개했다.(이미지=엔비디아)

엔비디아가 피지컬 AI(Physical AI)용 오픈 월드 파운데이션 토르카지노 '코스모스(Cosmos) 3'를 공개했다.

코스모스 3는비전 추론, 월드 생성, 액션 예측 기능을 하나의 시스템으로 통합한 혼합 트랜스포머(Mixture-of-Transformers) 아키텍처를 기반으로 개발됐다.

엔비디아는 코스모스 3를세계 최초의 완전 오픈 옴니토르카지노(Omnimodel)이라고 소개했다. 텍스트와 이미지, 비디오, 주변음, 액션 데이터를 동시에 이해하고 생성할 수 있으며, 물리 세계에 대한 높은 수준의 정확성을 갖췄다. 이를 통해 피지컬 AI 시스템의 훈련과 평가 기간을 기존 수개월 단위에서 수일 수준으로 단축할 수 있다고 설명했다.

엔비디아는 또한 월드 토르카지노 개발 생태계 확대를 위해 '엔비디아 코스모스 연합(NVIDIA Cosmos Coalition)'을 출범했다. 연합에는 애자일 로봇, 블랙 포레스트 랩스, 제너럴리스트, LTX, 런웨이, 스킬드 AI 등 주요 월드 토르카지노 개발사와 AI 기업들이 참여한다.

젠슨 황 엔비디아 최고경영자(CEO)는 "멀티모달 추론 언어 토르카지노과 비전 토르카지노, 월드 토르카지노의 혁신적 발전으로 피지컬 AI의 빅뱅이 다가오고 있다"며 "코스모스 3는개발자들이 물리적 세계를 인식하고 추론하며 계획하고 행동하는 로봇과 자율주행차, 비전 AI를 개발할 수 있도록 지원하는 중요한 도약"이라고 말했다.

코스모스 3는로봇과 자율주행차, 비전 에이전트가 제한된 학습 데이터와 복잡한 시뮬레이션 환경에서도 현실 세계에 안정적으로 적응할 수 있도록 설계됐다.

핵심 기술은 추론 전용 트랜스포머와 생성 전용 트랜스포머를 결합한 혼합 트랜스포머 구조다. 이를 통해 토르카지노은 비디오나 행동 궤적을 생성하기 전에 객체 간 상호작용과 움직임, 시공간적 관계를 먼저 이해하고 추론할 수 있다.

토르카지노은 텍스트와 이미지, 비디오, 오디오, 행동 궤적 등 수십억 개의 멀티모달 데이터를 기반으로 사전 학습됐다. 엔비디아는 이를 통해 개발자들이 더 적은 데이터와 낮은 비용으로 피지컬 AI 시스템을 구축할 수 있다고 밝혔다.

코스모스 3는비전언어토르카지노(VLM)로 활용해 멀티모달 정보를 이해하고 추론할 수 있으며, 미래 환경 상태를 예측하는 월드 토르카지노 또는 비디오 파운데이션 토르카지노로도 사용할 수 있다. 또한 로봇의 작업 수행 능력을 학습시키는 월드 액션 토르카지노의 기반 기술로도 활용 가능하다.

토르카지노에 따르면 코스모스 3는다양한 피지컬 AI 벤치마크에서 최고 수준의 성능을 기록했다.

월드 생성 부문에서는 아티피셜 애널리시스, 피직스-IQ, PAI-벤치, R-벤치 등 주요 공개 평가에서 1위를 차지했다. 액션 정책 분야에서는 로보랩과 로보아레나, 비전 이해 분야에서는 밴티지-벤치와 TAR 리더보드에서 각각 최고 성적을 기록했다.

엔비디아는 코스모스 연합을 통해 오픈 월드 토르카지노 개발을 가속화한다는 계획이다.

연합 참여 기업들은 코스모스 3 기술과 학습 도구, 엔비디아 DGX 클라우드 인프라를 활용해 대규모 토르카지노 학습과 평가, 연구 개발을 수행할 수 있다. 엔비디아는 이를 통해 개방형 생태계 기반의 협업을 확대하고 상호운용성과 혁신 속도를 높인다는 목표를 제시했다.

코스모스 플랫폼은 토르카지노의 피지컬 AI 기술 스택을 기반으로 구축됐으며, 로보틱스와 물리 시뮬레이션, 인간 동작 분석, 자율주행, 창고 안전, 공간 추론 등을 위한 데이터셋과 AI 에이전트 기술을 제공한다.

특히 뉴럴 장면 재구성, 결함 이미지 생성, 토르카지노오 증강 등 다양한 합성 데이터 생성 기능을 지원해 훈련과 평가 과정을 효율화할 수 있도록 했다.

현재 로보틱스 분야에서는 두산로보틱스, LG전자, 삼성, 애자일 로봇, 스킬드 AI 등이 코스모스 플랫폼을 활용하고 있다. 자율주행 분야에서는 리오토가 참여하고 있으며, 비전 AI 분야에서는 센티픽, 포그스피어, 링커 비전, 마일스톤 시스템즈, 유안 등이 산업 AI 및 스마트 공간 애플리케이션 개발에 활용 중이다.

개발자들은 엔비디아의 개발 플랫폼을 통해 코스모스 3를 활용할 수 있으며, 허깅페이스에서 오픈 토르카지노을 내려받을 수 있다. 또한 허깅페이스 디퓨저와 관련 오픈소스 도구를 활용해 토르카지노을 맞춤형으로 학습시키고 합성 데이터를 생성한 뒤 엔비디아 NIM 마이크로서비스를 통해 배포할 수 있다.

엔비디아는 베이스텐, 코어위브, 마이크로소프트 애저, 네비우스, 딥 인프라, 클래스메소드 등 클라우드·추론 서비스 파트너들과 협력해 토르카지노 접근성과 배포 편의성을 높일 계획이라고 밝혔다.

백승일 기자 robot3@irobotnews.com

저작권자 © 로봇신문 무단전재 및 재배포 금지