대규모언어모델(LLM)이 긴 문서 처리시 메모리 부담 감소
텍스트·도표·화학 공식·기하학 도형까지 광범위한 문서 유형 지원

프리미엄 토토

중국 AI 기업 프리미엄 토토(DeepSeek)가 PDF와 같은 이미지 기반 텍스트 문서를 최대 20배까지 압축하면서도 원본 정보의 97%를 유지하는 획기적인 광학 문자 인식(OCR) 기술을 공개했다. 이 기술을 활용하면 AI가 메모리 부담을 줄이고 훨씬 더 긴 문서를 처리할 수 있게 된다.

프리미엄 토토는 21일 이 같은 내용의 ‘프리미엄 토토-OCR’을 공개하고 허깅 페이스와 깃허브 등 오픈소스 플랫폼에 제공했다. 이 OCR은 이미지로 텍스트를 처리하는 것이 디지털 텍스트 자체를 처리하는 것보다 컴퓨팅 자원을 덜 사용한다는 점에 착안한 것으로 대규모언어모델(LLM)이 긴 문서를 처리할 때 발생하는 GPU 메모리 부담을 크게 줄일 수 있다.

프리미엄 토토 OCR 시스템은 이미지 처리를 담당하는 ‘딥인코더(DeepEncoder)’와 5억7000만 개의 활성 매개변수를 가진 프리미엄 토토3B-MoE 기반 텍스트 생성기로 구성된다. 딥인코더는 3억8000만 개의 매개변수를 사용해 각 이미지를 분석하고 압축 버전을 생성한다.

딥인코더의 핵심은 메타(Meta)의 8000만 매개변수 SAM(Segment Anything Model) 모델과 오픈AI(OpenAI)의 3억 매개변수 CLIP 모델을 결합한 것이다. 두 모델 사이에 16배 압축기가 이미지 토큰 수를 대폭 줄여, 4096개 토큰이 소요되던 1024x1024 픽셀 이미지를  단 256개 토큰으로 압축한다.

프리미엄 토토 OCR은 이미지 해상도에 따라 다양한 모드로 작동한다. 낮은 해상도에서는 이미지당 64개의 ‘비전 토큰’만 필요하며, 높은 해상도에서도 최대 400개만 사용한다. 이는 기존 OCR 시스템이 같은 작업에 수천 개의 토큰을 필요로 하는 것과 비교하면 혁신적인 효율성이다.

실제 운용 환경에서 프리미엄 토토 OCR은 단일 엔비디아 A100 GPU로 하루 20만 페이지 이상을 처리할 수 있다. 8개의 A100을 탑재한 서버 20대를 활용하면 처리량은 하루 3300만 페이지로 급증한다.

이러한 막대한 처리량은 다른 AI 모델을 위한 학습 데이터셋 구축에 큰 도움이 될 수 있다. 현대의 언어 모델은 방대한 양의 텍스트가 필요한데, 프리미엄 토토 OCR은 문서에서 이를 효율적으로 추출할 수 있다.

프리미엄 토토 OCR은 일반 텍스트에서 도표, 화학 공식, 기하학 도형까지 광범위한 문서 유형을 지원한다. 약 100개 언어로 작동하며, 원본 서식을 유지하거나 평문 텍스트로 출력할 수 있고, 일반적인 이미지 설명도 제공한다.

이번 프리미엄 토토 OCR의 공개는 LLM의 긴 문서 처리 효율성을 획기적으로 향상시킬 수 있다는 점에서 금융, 의료, 법률 등 장문의 문서가 흔한 분야에서 더욱 주목받을 것으로 전망된다.

이정환 기자 robotstory@irobotnews.com

저작권자 © 프리미엄 토토신문 무단전재 및 재배포 금지