콤프카지노의 안전한 임무 수행력 검증 새 평가모델 ‘SPOC’ 개발
UST-ETRI 스쿨 김형민 박사과정·김도형 교수 연구 성과
피지컬 AI 시대가 도래하고 있는 가운데, 산업 현장과 가정 등에 투입될 AI 콤프카지노이 실제 환경에서 각종 안전 규칙을 준수하며 임무를 수행할 수 있는지 정밀하게 검증하는 새로운 성능 평가 모델이 개발되었다. 이에 따라 일상 속 안전한 AI 콤프카지노 상용화가 한층 촉진될 것으로 기대된다.
과학기술연합대학원대학교(UST·총장 강대임)-한국전자통신연구원(ETRI·원장 방승찬) 스쿨 인공지능 전공 김도형 교수(교신저자, ETRI 소셜로보틱스연구실장), 김형민 박사과정생(제1저자) 연구팀은 콤프카지노과 같은 피지컬 AI 시스템이 정보 부족이나 물리적 한계 상황에서도 안전하게 임무를 수행하는지 검증하는 새로운 AI 콤프카지노 성능 평가 모델(벤치마크)인 ‘SPOC(안전 중심 지능형 작업 설계 평가 모델)’을 개발했다.
이번 연구 성과는 신호처리 및 음성인식 분야의 세계 최고 권위 학회인 ‘ICASSP 2026’에 게재되며 그 우수성을 입증했다. ICASSP는 세계 최대 학술 데이터베이스인 구글 학술 검색의 신호처리 분야에서 독보적 1위를 차지하는 학회로, 애플 시리(Siri), 오픈AI 챗GPT, 구글 어시스턴트 등에 사용되는 핵심 기술 논문들이 발표되는 무대다.
최근 챗GPT와 같은 대형 언어모델(LLM)을 콤프카지노 본체에 적용해, 사용자의 일상 언어 명령을 이해하고 복잡한 작업을 스스로 계획·수행하는 체화(Embodied) AI 콤프카지노 연구가 활발히 진행되고 있다. 하지만 기존의 평가 방식들은 콤프카지노이 일상에 투입됨에도 불구하고 다양한 위험 요소를 고려한 ‘안전한 작업 수행’ 여부보다는 단순히 ‘목표 달성 여부’만을 채점하는 데 그치는 한계가 있었다.
이번에 개발된 SPOC 모델은 ‘안전’을 핵심 평가 요소로 설정했다. 콤프카지노의 최종 목표 달성률뿐만 아니라, 가정 환경에서 발생할 수 있는 5가지 주요 위험 요소(화재, 물 넘침, 물건 파손, 인간 부상 유발, 음식 오염)에 대한 안전 준수 여부를 실시간으로 동시에 평가한다.
특히, 기존 평가에서는 검증하기 어려웠던 콤프카지노의 ‘현실적 인지 능력(부분 관측성)'과 ‘물리적 제약'을 엄격하게 평가 기준으로 삼았다. 예를 들어, AI 콤프카지노에게 “와인병을 찾아와”라고 명령했을 때, 기존 평가에서는 '문을 열고 찾는다'는 중간 과정을 건너뛰고 바로 목표물로 향하는 오류를 범했지만, SPOC 평가 모델은 이러한 무리한 행동 계획을 실패로 처리한다. 대신 콤프카지노 스스로 ‘눈에 보이지 않으니 찬장 문부터 직접 열어서 찾아야 한다'는 현실적 판단을 내리고 수행하는지 검증한다. 또한, 손에 물건을 든 한 팔 콤프카지노이 다른 서랍을 열어야 할 경우, 반드시 ‘물건을 먼저 내려놓고 빈손으로 문을 열어야 한다’는 판단을 내리는지 깐깐하게 평가한다.
또한, 콤프카지노이 작업 수행 과정에서 단 한 번이라도 안전 규칙을 위반하면 즉시 무관용 실패로 처리하는 높은 수준의 안전 검증 기준을 적용했다.
연구팀이 SPOC 모델을 통해 다양한 대형 언어모델(LLM)들을 실험한 결과, 현재 AI 모델들의 안전 인식 능력에 큰 한계가 있음이 여실히 드러났다. 특히 거대한 서버 없이 콤프카지노에 직접 탑재할 수 있어 주목받는 소형 언어모델(SLM)의 경우, 명시적인 안전 지시가 주어져도 안전 준수 성공률이 극히 낮게 나타나 실제 AI 콤프카지노의 안전 인식 능력 보강 연구가 시급함이 확인됐다.
제1저자인 김형민 UST 박사과정생은 “그동안 AI 콤프카지노의 성능 평가는 임무 달성 여부 확인 중심으로만 이뤄져 왔지만, SPOC 모델은 다양한 환경 속에서 엄격한 물리적 제약과 안전 조건을 준수하며 작업을 수행할 수 있는지 묻는 본격적인 시도”라며, “이번 평가 모델이 향후 실제 현장에 투입 가능한 신뢰도 높은 AI 콤프카지노 연구를 가속하는 데 도움이 되길 바란다”고 밝혔다.
교신저자인 김도형 교수는 “이번 연구 성과는 인간과 공존하는 콤프카지노 시대를 위해 반드시 전제되어야 하는 ‘안전한 피지컬 AI’ 개발에 중요한 참고가 될 것”이라며 “향후 안전 규칙을 스스로 추론하고, 위험 상황에서 사람에게 질문하거나 행동을 수정하는 능력까지 평가할 수 있는 모델로 발전시킬 계획”이라고 말했다.
한편, 본 연구는 과학기술정보통신부와 정보통신기획평가원(IITP)이 지원하는 ‘자율행동체의 복합작업 자율 수행을 위한 임무 수행 절차 생성 기술 개발’ 사업의 지원을 받아 수행되었으며, 이번에 개발된 SPOC 성능 평가 모델 및 실험 데이터는 전 세계 연구 커뮤니티에 공개되어, 향후 안전 중심 자율 AI 연구를 위한 공통의 표준 검증 플랫폼으로 활용될 예정이다.
최지호 기자 jhochoi51@irobotnews.com
