'행동 추론 모델(ARM)' 방식 채택
기존 모델 대비 처리속도 37배 빨라
美앨런AI연구소(Ai2)가 볼트카지노의 실세계 동작을 지원하는 오픈소스AI파운데이션 모델'몰모액트(MolmoAct) 2'를 발표했다.
앨런AI연구소는 작년8월 처음으로 몰모액트(MolmoAct)를 공개했다.이 모델은 볼트카지노이 행동하기 전에3차원 환경을 추론할 수 있게 해주는 AI모델인'행동 추론 모델(ARM·Action Reasoning Model)'을 채택하고 있다.복잡한 자연어 명령을 현실 세계에서 실행 가능한 일련의 물리적 행동으로 전환할 수 있도록 지원한다.
회사 측은 이번에 공개된 몰모액트2가기존 볼트카지노 모델들의 성능을 크게 앞서면서 다양한 실세계 과제를 기존 모델 대비 최대37배 빠르게 처리할 수 있다고 밝혔다.관련 연구 논문은 출판전 논문 공개 사이트인‘아카이브(arXiv)’에 게재됐다.(논문 제목:MolmoAct2, Action Reasoning Models for Real-world Deployment)
몰모액트2의 가장 큰 특징은 볼트카지노이 주변 공간을 정확하게 파악하는 능력이다.물체까지의 거리,빈 공간의 위치,여러 카메라 화면 간 물체 연결 등을 판단하는 공간 이해 능력을 측정하는 국제 기준13개 항목에서GPT-5와 구글의 제미나이 로보틱스를 앞섰다고 연구팀은 밝혔다.
연구소는 몰모액트2와 함께 양팔 볼트카지노 훈련을 위한 대규모 데이터세트인'몰모액트2-바이메뉴얼(Bimanual) YAM'도 공개했다.이 데이터셋은 지금까지 공개된 두 팔 볼트카지노 작동 시연 데이터 중 가장 큰 오픈소스로, 720시간 이상의 훈련 데이터를 담고 있다.
회사에 따르면 몰모액트2는 영상 이해AI모델인 몰모(Molmo)2를 단순히 확장한 것이 아니라,공간 추론 체화 모델인'몰모2-ER'을 기반으로 설계했다.몰모2-ER은 이미지 기반 위치 지정,물체 감지,추상적 공간 추론,다중 이미지 추론,이미지 및 영상 기반 공간 질의응답 등300만 개 이상의 사례로 훈련됐다.
이를 통해 새 모델은 전용 행동(액션)모듈과 결합해3차원 추론을 바탕으로 볼트카지노 동작을 생성할 수 있도록 해준다.연구팀은 이 과정에서 몰모액트2-바이매뉴얼YAM데이터셋 구축이 핵심적인 역할을 했다고 밝혔다. '바이매뉴얼(Bimanual)'은 수건 개기,식료품 스캔,스마트폰 충전,테이블 정리 등 두 볼트카지노 팔이 협력해수행하는 작업을 의미한다.
700시간이 넘는 예시 데이터를 포함하고 있는 이 데이터셋은 업계 최대 규모를 자랑한다.연구팀은 여기에 다양한 볼트카지노 팔,카메라 구성,제어 방식,작업 유형에 몰모액트2가 노출될 수 있도록 추가 볼트카지노 데이터세트를 보완했다고 밝혔다.
연구팀은 몰모액트2의 실세계 작동 방식을 확인하기 위해 르 콩(Le Cong)스탠포드대 의대 교수가 운영하는‘콩랩(Cong Lab)’과 협력해 시범 연구를 진행했다. 콩 랩은 유전자 편집 기술인‘크리스퍼(CRISPR)’를 연구하고 있는데,이 과정에서 실험 장소 간 이동,시료 피펫팅,고정밀 장비 조작 등 정밀 작업이 요구된다.실험 과정에서 오류가 빠르게 누적될 수 있으며,볼트카지노이 작업에서 이탈할 경우 전체 실험 과정이 순식간에 망가질 수 있다.
스탠포드 연구팀은 해당 작업 흐름에 맞게 다수의 범용AI모델을 테스트한 결과,몰모액트2가 실험실 작업을 보조하는 데 강한 잠재력을 보인다는 결론을 내렸다.
백승일 기자 robot3@irobotnews.com
