中 상하이자오퉁대, ‘AI 모델이 다른 AI 모델 비판’ 자율연구 시스템 개발 < 기술 < 인공지능 < 기사본문

실행자 모델이 오랜 연구 진전시키는 동안
검토자 모델은 중간 산출물 비판·수정 요청
반드시 서로 다른 AI 모델 계열서 상호 검증

▲상하이자오퉁대 카지노 전략팀이 AI모델 간 상호 비판이 가능한 자율카지노 전략 시스템을 개발했다. (사진=챗GPT로 이미지 생성) — ▲상하이자오퉁대 연구팀이 AI모델 간 상호 비판이 가능한 자율연구 시스템을 개발했다. (사진=챗GPT로 이미지 생성)

중국 상하이자오퉁대 연구팀이 대규모언어모델(LLM)에이전트들이 서로를 적대적으로 비판하며 머신러닝 연구를 자율적으로 수행하는 오픈소스 시스템인'ARIS(Autonomous Research via Adversarial Multi-Agent Collaboration·적대적 다중 에이전트 협업을 통한 자율 연구)'를 개발했다.

ARIS는 연구 아이디어 발굴실험,논문 작성,심사 의견 대응 등 연구의 전 과정을 자동화하는 도구다.연구팀은 연구 성과를 출판전 논문 공개 사이트인‘아카이브(arXiv)’에 발표했다. (논문 제목:ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration)

연구팀은 특정 대규모언어모델 에이전트가 장기 과제를 수행하면 태만,환각,기만적 행동이 발생할 수 있다는 가정 아래 ‘실행자(executor)’와‘검토자(reviewer)’를 반드시 서로 다른AI모델 계열에서 선택해 상호 검증하도록 했다.실행자 모델이 연구를 진전시키는 동안,다른 모델 계열의 검토자가 중간 산출물을 비판하고 수정을 요청하는 방식이다.

연구팀은대규모언어모델의 가증 큰 문제점으로'그럴듯하지만 근거 없는 성공(plausible unsupported success)'을 꼽았다.실험 결과는 있지만 잘못 보고되거나,주장이 증거보다 앞서 나가는 사례들이 발생할 수 있다.

연구팀은 이런 현상을막기 위해ARIS에3단계 절차를 핵심 기능으로 탑재했다. 1단계에서는 평가 코드와 결과물의 무결성을 검사하고, 2단계에서는 각 실험 결과를 명시적 주장과 대응시켜'지지', '부분적 지지', '무효'중 하나로 판정한다. 3단계에서는 기존 대화 맥락이 없는 새로운검토 모델이 논문 초안의 모든 수치 주장을 원본 결과 파일과 직접 대조한다.

연구팀은 이 시스템의 개발에도 불구하고,연구의 방향 설정,증거 검증,최종 제출 결정 등은 여전히 인간의 책임 아래 있다고 명시했다. ARIS는 오픈소스로 공개됐으며 클로드 코드(Claude Code),코덱스(Codex) CLI,커서(Cursor)등 환경에서 동작이 가능하다는 것이 확인됐다.

백승일 기자 robot3@irobotnews.com

백승일 robot3@irobotnews.com

다른기사 보기