실행자 모델이 오랜 연구 진전시키는 동안
검토자 모델은 중간 산출물 비판·수정 요청
반드시 서로 다른 AI 모델 계열서 상호 검증
중국 상하이자오퉁대 연구팀이 대규모언어모델(LLM)에이전트들이 서로를 적대적으로 비판하며 머신러닝 연구를 자율적으로 수행하는 오픈소스 시스템인'ARIS(Autonomous Research via Adversarial Multi-Agent Collaboration·적대적 다중 에이전트 협업을 통한 자율 연구)'를 개발했다.
ARIS는 연구 아이디어 발굴실험,논문 작성,심사 의견 대응 등 연구의 전 과정을 자동화하는 도구다.연구팀은 연구 성과를 출판전 논문 공개 사이트인‘아카이브(arXiv)’에 발표했다. (논문 제목:ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration)
연구팀은 특정 대규모언어모델 에이전트가 장기 과제를 수행하면 태만,환각,기만적 행동이 발생할 수 있다는 가정 아래 ‘실행자(executor)’와‘검토자(reviewer)’를 반드시 서로 다른AI모델 계열에서 선택해 상호 검증하도록 했다.실행자 모델이 연구를 진전시키는 동안,다른 모델 계열의 검토자가 중간 산출물을 비판하고 수정을 요청하는 방식이다.
연구팀은대규모언어모델의 가증 큰 문제점으로'그럴듯하지만 근거 없는 성공(plausible unsupported success)'을 꼽았다.실험 결과는 있지만 잘못 보고되거나,주장이 증거보다 앞서 나가는 사례들이 발생할 수 있다.
연구팀은 이런 현상을막기 위해ARIS에3단계 절차를 핵심 기능으로 탑재했다. 1단계에서는 평가 코드와 결과물의 무결성을 검사하고, 2단계에서는 각 실험 결과를 명시적 주장과 대응시켜'지지', '부분적 지지', '무효'중 하나로 판정한다. 3단계에서는 기존 대화 맥락이 없는 새로운검토 모델이 논문 초안의 모든 수치 주장을 원본 결과 파일과 직접 대조한다.
연구팀은 이 시스템의 개발에도 불구하고,연구의 방향 설정,증거 검증,최종 제출 결정 등은 여전히 인간의 책임 아래 있다고 명시했다. ARIS는 오픈소스로 공개됐으며 클로드 코드(Claude Code),코덱스(Codex) CLI,커서(Cursor)등 환경에서 동작이 가능하다는 것이 확인됐다.
백승일 기자 robot3@irobotnews.com
