본문 바로가기

AI

CODEAGENTS: 코드 기반 다중 에이전트 협업으로 LLM 추론의 토큰 비용을 획기적으로 줄이고 성공률을 높이다

안녕하세요, 여러분! 오늘은 최근에 발표된 “CODEAGENTS: A TOKEN-EFFICIENT FRAMEWORK FOR CODIFIED MULTI-AGENT REASONING IN LLMS” 논문을 소개해 드릴게요. 이 글을 읽고 나시면 왜 ‘코드 기반 다중 에이전트 추론’이 미래 AI 시스템에 핵심적인지 이해되실 겁니다.


CODEAGENTS 논문, 한눈에 보는 기술적 혁신

1. 배경: 왜 ‘계획’이 중요한가?

대형 언어모델(LLM)이란 단순 화자 역할을 넘어서, ‘에이전트’로서 계획을 세워 문제를 해결하는 시대가 열렸어요. 우리가 일상에서 스마트 어시스턴트를 쓰듯, 이런 LLM 에이전트들은 복잡한 일을 단계별로 ‘계획→실행→피드백’의 사이클로 처리합니다.

근데 문제는?

  • 대부분 ‘자연어’ 방식에 의존해, 대화처럼 길고 모호한 텍스트로 계획하고 실행하죠.
  • 이러면 많은 토큰을 사용해서 API 비용이 많이 들고, 속도도 느려져요.
  • 에이전트 기능들(기획, 실행, 검증)이 뒤섞여 버려 복잡한 작업엔 적합하지 않습니다.

2. CODEAGENTS 의 ‘핵심 아이디어’ — 코딩하듯 계획한다

논문에서 제안하는 CODEAGENTS는 LLM 에이전트들이 ‘말’ 대신 ‘코드’ — 정확히는 ‘구조화된 의사코드(pseudocode)’를 주고받으며 협업하도록 설계했어요.

왜 ‘코드’인가요?

  • 명확한 의사소통: 변수, 조건문, 반복문 같은 프로그래밍 구성요소를 쓰면 모호함이 줄어듭니다.
  • 토큰 효율성 극대화: 자연어보다 훨씬 간결해 토큰 소비가 대폭 줄어요.
  • 모듈성 & 재사용성: 역할별로 전문화된 ‘플래너’, ‘실행자’, ‘검증자’ 같은 에이전트 모듈을 독립적으로 설계할 수 있습니다.
  • 실행 가능성 강화: 의사코드에 포함된 ‘assert’(조건 검사)와 ‘피드백-재계획’ 루프를 통해 로버스트(강건)하게 문제를 해결합니다.

VirtualHome 에이전트 루프

3. 전통 방법 대비 한눈에 차이 — 표로 보는 비교

방법 토큰 비용 성공률 재계획 지원 특징
Chain-of-Thought (자연어) 높음 중간 X 긴 설명적 추론, 비효율적 토큰 사용
ProgPrompt (부분 코드) 낮음 중간 X 코드형 추론 도입, 복구 단순함
ReAct (혼합 자연어 + 액션) 높음 중간 O 반응형 액션 포함, 토큰 비용 큼
CodeAgents (전체 코드 기반) 낮음 높음 O 모듈 간 협업, 토큰 효율 극대화

논문 Table 1 요약 – CodeAgents가 재계획은 물론 적은 토큰으로 최고 성공률을 기록!

4. 구체적 실험 결과 & 기술적 의미

논문은 세 가지 주요 벤치마크에서 CODEAGENTS의 성능을 입증했습니다.

① VirtualHome (가상 환경에서 집안일 계획 실험)

  • 기존 자연어 방식보다 **성공률 56%**로 약 20% 이상 향상
  • 입력/출력 토큰 수 40~70% 감소 — ‘속도’ + ‘비용’ 절감 효과 확실
  • 코드기반 assert(조건 확인) + 재계획 루프가 실패 내성↑

② GAIA (웹 검색 및 도구 활용 AI 어시스턴트 대회)

  • 자연어 대비 약 10% 이상 정확도 증가
  • 토큰 비용은 무려 40~70% 절감, 실제 서비스 구현에 유리

③ HotpotQA (다중 문서 추론 퀘스천)

  • 여러 모델에서 정확도 및 F1 감소 없이 최대 70% 토큰 절감
  • 분석을 보면 ‘의미 밀도’가 크게 올라가 효율적 사용 가능

5. 기술적 가치: 기존 연구와 무엇이 다른가?

기존 강점

  • Chain-of-Thought, ReAct 같은 방법은 ‘자연어’ 위주로 추론 흐름을 설명해 이해하기 쉽고 다목적
  • PAL, ProgPrompt 등은 코드 실험을 시도하며 구현 가능성에 집중

CODEAGENTS 차별점

  • 완전한 코드기반 설계: 자연어 의존 줄이고, 모듈별 역할 분담(Planner, Executer, Replanner)을 엄격히 분리
  • 토큰-비용에 집중: 기존 연구들이 간과한 ‘토큰 사용 비용’을 핵심 평가지표로 채택 및 최적화
  • 동적인 에러 회복 루프: 로컬 assert/조건 검사와 전역 재계획을 결합해 오류 전파 최소화
  • 유연한 도구 호출: 코드로 API+툴 호출 명시, 실행과 계획 간 분리해 운영 효율 극대화

6. 블로그 독자께 권하는 활용법

  • 실험 환경 구축: 코드 기반 계획+실행 프레임워크로 LLM 에이전트를 구성해 보세요.
  • 비용 절감 목표: API 호출 톡톡히 하는 LLM 실서비스 구축에 최적!
  • 다중 에이전트 협업: 복잡한 업무를 에이전트 역할별로 나누고, 코드로 명확한 의사소통을 하세요.
  • 실패 내성 향상: assert와 feedback 루프 통해 안정성 확보를 체험해 보세요.

정리하며

CODEAGENTS 논문은 LLM 에이전트의 ‘기획부터 실행, 오류 복구까지’ 전 과정을 코드로 구조화한 혁신적인 프레임워크입니다. 기존 자연어 추론 기반 시스템과 비교해 훨씬 ‘토큰 효율’과 ‘성능’면에서 뛰어납니다. 앞으로 AI가 복잡한 업무를 사람과 협력하며 수행하려면 이런 ‘코드처럼 명확한’ 소통과 협업 방식이 필수일 거예요.

여러분도 LLM 기반 AI 관련 프로젝트에 CODEAGENTS 방식을 한번 도입해 보시면, 효과와 효율성에서 큰 차이를 느끼실 수 있을 겁니다.


참고 링크

읽어 주셔서 감사합니다! 더 궁금한 점 있으시면 편하게 댓글로 질문해 주세요 :)