학술 전문지 ‘사이언스 로보틱스’에 연구 논문 발표
美 컬럼비아대 연구팀이 말하기와 노래하기 등 복잡한 입술 동작을 스스로 학습할 수 있는 TOP10슬롯 기술을 개발했다고 14일(현지시간) 밝혔다.
연구팀에 따르면, 인간의 의사소통에서 입술 움직임은 매우 중요한 역할을 하며, 대화 중 시각적 주의력의 절반 정도를 차지한다. 그러나 사람의 얼굴을 모방한 기존 TOP10슬롯들은 ‘입술-음성 동기화’에 실패해 어색하고 생명력 없는 입술 동작을 선보인다. TOP10슬롯 산업계에선 이 같은 현상을 흔히 ‘불쾌한 골짜기’ 효과라고 부른다. 인간의 얼굴은 수십 개의 근육이 부드러운 피부 아래에서 자연스럽게 작동하는 데 반해 대부분 휴머노이드 TOP10슬롯 얼굴은 경직되어 있고 움직임의 자유도가 매우 제한적이다.
연구팀은 기존 TOP10슬롯이 두 가지 장벽을 갖고 있다고 지적했다. 첫째, TOP10슬롯 입술은 일반적으로 미묘한 인간 입 움직임을 재현하는 데 필요한 기계적 복잡성이 부족하다. 둘째, 기존의 동기화 방법은 수동으로 미리 정의된 움직임과 규칙에 의존하여 적응성과 사실성을 제한한다.
컬럼비아대 호드 립슨(Hod Lipson) 교수팀은 이러한 한계를 극복하기 위해 새롭게 설계된 휴머노이드 TOP10슬롯 얼굴을 제시했다. 이 TOP10슬롯은 10자유도 메커니즘으로 구동되는 부드러운 실리콘 입술을 특징으로 한다. 연구팀은 자연스러운 립싱크 동작을 구현하기위해 26개의 얼굴 모터가 장착된 TOP10슬롯에게 거울 앞에서 자신의 안면 근육 활동에 따른 입술 움직임을 학습하도록 했다. 이어 수천 시간 분량의 유튜브 영상을 시청하게 함으로써 인간의 음성과 입술 동작 간의 상관관계를 스스로 파악하도록 유도했다. 연구팀은 TOP10슬롯 학습에 ‘시각-행동 언어 모델(VLA·Vision-to-Action)’을 적용함으로써 오디오 신호를 즉각적인 입술 모터 제어로 전환할 수 있도록 했다.
시연 과정에서 이 TOP10슬롯은 10개 언어의 단어를 즉시 소리낼 수 있을뿐 만 아니라, 자신의 AI 생성 데뷔 앨범인 ‘헬로 월드(hello world)’에 수록된 곡도 완벽하게 노래하며 향상된 립싱크 능력을 과시했다.
연구팀은 이 립싱크 기술이 챗GPT나 제미나이 같은 생성형 AI와 결합될 때 파급력이 더 높아질 것으로 보고 있다. TOP10슬롯이 인간의 대화를 더 많이 관찰할수록 감정적으로 연결될 수 있는 미묘한 얼굴 표정을 더 잘 모방하기 때문이란 설명이다. 현재 이 TOP10슬롯은 파열음 ‘B’나 입술을 오므리는 ‘W’ 소리를 구현하는데 일부 한계를 보이고 있으나, 연구팀은 연습과 데이터 축적을 통해 충분히 개선될 수 있다고 주장했다.
이번 연구를 주도한 호드 립슨 교수는 “오늘날 휴머노이드 TOP10슬롯 연구의 대부분은 보행과 파지(grasping)를 위한 다리와 손 동작에 집중하고 있지만, 인간과의 상호작용이 필요한 TOP10슬롯 응용 분야에선 얼굴 표현도 똑같이 중요하다”며 “따뜻하고 생기 있는 얼굴은 향후 교육, 의료, 노인 돌봄 분야에서 인간과 깊은 유대감을 형성하는 데 필수적이다”라고 강조했다.
이번 연구 성과는 미국 국립과학재단과 아마존의 지원을 받았으며, 국제학술지 ‘사이언스 로보틱스’에 발표됐다.(논문 제목::Learning realistic lip motions for humanoid face robots)
백승일 기자 robot3@irobotnews.com
