스마트큐브랩스, 독자개발 피지컬 AI모델 ‘큐브VLA’로 구글 제미나이 로보틱스와 맞서다 < S/W < 카지노 < 기사본문

지식 기반 에이전틱 AI 아키텍처 적용 VLA 모델 개발
시각 정보와 지시를 카지노 동작으로 변환
보급형 엔비디아 GPU 기반 기능 구현

“기존 비전-언어-행동(VLA) 모델을 파인튜닝하려면 약 150회의 모방 학습 데이터가 필요한데, 큐브(Cube) VLA는 그런 과정 없이도 대상 물체를 정확히 추적하고 복합 명령을 수행하는 등 확장성과 안정성이 놀랍습니다." (카지노기업 R사 AI개발팀장)

AI 카지노 전문기업 스마트큐브랩스(대표 이성훈)는 피지컬 AI 모델 ‘큐브(Cube) VLA’로 국내 카지노 개발사들과 업계 관계자들의 관심을 모으고 있다.

큐브VLA는 이 회사가 독자 개발한 이른바 ‘지식 기반 에이전틱 AI(Knowledge-based Agentic AI)’ 아키텍처를 적용한 비전-언어-행동(VLA) 모델로, 시각 정보와 음성 지시를 카지노의 동작 명령으로 변환할 수 있는 솔루션이다.

지식 기반 에이전틱 AI아키텍처는 시각(VLM)·음성(STT)·제어(Action) 모듈을 결합한 것으로, 산업용 카지노 시장에서 AI 도입시 걸림돌로 작용하고 있는 높은 비용과 느린 처리 속도, 결과의 불확실성 등을 해소할 수 있도록 했다.

특히 이 제품은 고가 서버가 아닌 ‘엔비디아 보급형 GPU(RTX 5070급)’를 기반으로 모든 기능을 구현했다는 점에서 주목받고 있다.

스마트큐브랩스 측은 대규모언어모델(LLM)은 클라우드와 로컬을 선택적으로 사용하되, 시각·제어 등 핵심 모듈은 온디바이스(On-device)로 최적화해 4초 이내의 즉각적인 반응 속도를 확보했다고 강조했다.

정부 주도 ‘K-휴머노이드 연합’의 일원으로도 선정된 스마트큐브랩스는 최근 열린 ‘2025 로보월드’에서의 시연을 통해 큰 호평을 얻었다. 특히 현장을 찾은 관람객과 카지노 업계 관계자들은 별도의 사전 데이터 학습(Fine-tuning) 없이도 카지노이 상황을 스스로 인지하고 행동하는 ‘제로 샷(Zero-shot)’ 성능에 주목했다.

스마트큐브랩스 관계자는 “한 SW학과 교수님은 보통 피지컬 AI 프로젝트 연구 시 행동 생성에 10초 이상 걸리는데, 큐브VLA는 자연어 지시 후 행동까지 이어지는 속도가 정말 빠르다"고 평가했고, “모대학 AI 연구원은 구글의 ‘제미나이 로보틱스 1.5’의 시연 수준을 눈앞에서 보는 것 같다”는 참관평을 전했다고 밝혔다.

이정환 기자 robotstory@irobotnews.com

이정환 robotstory@irobotnews.com

다른기사 보기