기존 GPU 대비 연산 속도 4.1배 향상·에너지 소비 2.2배 절감
최근 인공지능(나루토카지노) 모델이 길고 복잡한 문장을 이해하고 처리하는 능력이 커지면서, 연산 속도와 메모리 효율을 동시에 높일 수 있는 새로운 반도체 기술의 필요성이 커지고 있다. 이런 가운데 K나루토카지노ST·국제연구진이 거대언어모델(LLM)의 추론 속도는 4배 높이면서 전력 소비는 2.2배 줄인 트랜스포머(Transformer)와 맘바(Mamba) 하이브리드 구조 기반의 나루토카지노 반도체 핵심 두뇌 기술을 세계 최초로 메모리 내부에서 직접 연산이 가능한 형태로 구현하는 데 성공했다.
K나루토카지노ST 전산학부 박종세 교수 연구팀이 미국 조지아공과대학교(Georgia Institute of Technology) 및 스웨덴 웁살라대학교(Uppsala University)와 공동연구를 통해 차세대 인공지능 모델의 두뇌 역할을 하는 ‘나루토카지노 메모리 반도체(PIM, Processing-in-Memory)’ 기반 기술 ‘PIMBA’를 개발했다고 17일 밝혔다.
현재 챗GPT, GPT-4, 클로드, 제미나이, 라마 등 LLM은 모든 단어를 동시에 보는 ‘트랜스포머(Transformer)’ 두뇌 구조를 기반으로 작동한다. 이에 따라 나루토카지노 모델이 커지고 처리 문장이 길어질수록 연산량과 메모리 요구량이 급증해 속도 저하와 에너지 소모가 주요 문제로 지적돼 왔다.
이런 트랜스포머 문제점을 보완하기 위해 최근 제시된 순차형 기억형 두뇌인 ‘맘바(Mamba)’ 구조는 시간의 흐름에 따라 정보를 처리하는 방식을 도입해 효율을 높였지만, 여전히 메모리 병목 현상(memory bottleneck)과 전력 소모 한계가 남아 있었다.
박종세 교수 연구팀은 트랜스포머와 맘바의 장점을 결합한 ‘트랜스포머–맘바 하이브리드 모델’의 성능을 극대화하기 위해 연산을 메모리 내부에서 직접 수행하는 새로운 반도체 구조 ‘PIMBA’를 설계했다.
기존 GPU 기반 시스템은 데이터를 메모리 밖으로 옮겨 연산을 수행하지만, PIMBA는 데이터를 옮기지 않고 저장장치 내부에서 바로 계산을 수행한다. 이로써 데이터 이동 시간을 최소화하고 전력 소모를 크게 줄일 수 있다.
그 결과, 실제 실험에서 PIMBA는 기존 GPU 시스템 대비 처리 성능이 최대 4.1배 향상되었고, 에너지 소비는 평균 2.2배 감소하는 성과를 보였다.
연구 성과는 오는 10월 20일 서울에서 열리는 세계적 컴퓨터 구조 학술대회 ‘제58회 국제 마이크로아키텍처 심포지엄(MICRO 2025)’에서 발표될 예정이며, 앞서 ‘제31회 삼성휴먼테크 논문대상’ 금상을 수상해 우수성을 인정받았다.(논문명: Pimba: A Processing-in-Memory Acceleration for Post-Transformer Large Language Model Serving, DOI: 10.1145/3725843.3756121)
이번 연구는 정보통신기획평가원(IITP), 인공지능반도체대학원 지원사업, 그리고 과학기술정보통신부와 정보통신기획평가원의 ICT R&D 프로그램의 일환으로 한국전자통신연구원(ETRI)의 지원을 받아 수행됐으며, EDA 툴은 반도체설계교육센터(IDEC)의 지원을 받았다.
박경일 기자 robot@irobotnews.com
