본문 바로가기

AI

PAACE: LLM 에이전트의 컨텍스트 과부하를 넘고 다단계 플랜 인지로 정확도와 효율을 동시에 잡다

안녕하세요, 이번에 소개해드릴 논문은 ‘PAACE: A PLAN-AWARE AUTOMATED AGENT CONTEXT ENGINEERING FRAMEWORK’입니다. 최근 LLM 에이전트들이 복잡한 다중 단계 업무를 수행할 때 겪는 ‘컨텍스트 관리’ 문제를 해결한 흥미로운 연구인데요, 기존 연구들과의 차이점과 기술적 가치에 초점을 맞춰 풀어드리겠습니다.


PAACE가 다루는 핵심 문제: ‘컨텍스트’가 너무 복잡해요!

우리가 흔히 사용하는 플래너 기반 LLM 에이전트들은 한 번에 여러 단계(task)를 연결해서 작업을 수행하죠. 예를 들어, 문서를 분석하고, 검색하고, 요약하는 작업을 차례대로 할 때, 각각의 단계는 이전 정보와 계획 전체 맥락을 필요로 합니다. 문제는 이 ‘맥락(context)’이 시간이 지날수록 무지막지하게 커지고, 불필요하거나 중복된 정보가 쌓여서 ‘주의(attention) 희석’과 ‘추론 품질 저하’를 일으킨다는 겁니다.

 

현재 대형 모델들이 최대 200k~1M 토큰의 큰 입력을 받더라도, 이렇게 구조화되지 않은 컨텍스트는 제대로 처리하지 못합니다. 즉, 양이 아무리 커져도 품질 보장이 안 된다는 뜻입니다.


기존 방법론들의 한계

기존에는 ‘요약(summarization)’, ‘질문 중심 압축(query-aware compression)’, ‘단순 최근 기록 유지(FIFO)’ 같은 기법들이 주를 이루었는데요. 대부분 ‘현재 단계’ 혹은 ‘한 두 단계 앞’의 작업만 신경 썼고, 전체 플랜의 구조와 다중 단계 의존성을 모델링하지 못했습니다.

예를 들어,

  • LLMLingua: 효과적인 토큰 압축을 달성하지만 ‘단일 쿼리’ 위주라 플랜 인지 능력이 부족합니다.
  • Self-RAG / Provence: 검색과 불필요한 컨텍스트 제거에 강하지만 ‘이진 판단’ 수준으로 세밀한 작업 간 종속 관계를 반영하지 못합니다.
  • 대형 롱컨텍스트 모델들(GPT-4o mini, Claude 3.5 등): window 크기는 확보했지만, 여전히 ‘관련 없는 정보’가 많으면 성능 저하 문제가 존재합니다.
  • 기억 및 회상 시스템(MemAgent, Reflexion 등): 저장과 검색 기능은 뛰어나지만, ‘컨텍스트 자체를 구조적으로 다듬는(context engineering)’ 능력은 미흡합니다.

PAACE가 가진 기술적 핵심 가치: ‘계획 인지(plan-aware) 컨텍스트 최적화’

PAACE는 ‘단일 단계’가 아닌 ‘다음 k단계(Next-kk task)’까지 고려하여 컨텍스트를 다루는 혁신적인 프레임워크입니다. 핵심을 정리하면,

1. 플랜 구조와 다단계 의존성 반영

PAACE는 현재 작업뿐 아니라 향후 작업들이 필요로 하는 정보까지 고려해서 컨텍스트를 압축합니다. 이를 통해 앞으로 필요한 도구 호출, 중간 상태, 시간적 순서까지 유지하며 ‘망가짐 없는’ 상태 보존이 가능하죠.

2. 합성(시뮬레이션) 기반 대규모 데이터셋(PAACE-Syn) 생성

실제 작업 환경과 유사한 복잡하고 긴 작업 플로우를 수백만 개 생산, 각각에 ‘압축 전/후’ 컨텍스트 상태를 정밀하게 주석 달아 고품질 감독 신호로 삼습니다. 기존 데이터셋들이 ‘작업 계획’ 정보가 부족하거나 데이터 규모가 작던 문제를 극복했습니다.

3. 교사-학생 방식의 압축 모델 학습(PAACE-FT)

고성능 거대 LLM(교사)의 압축 정책을 경량 모델(학생)이 따라 하도록 학습시킴으로써, 실제 서비스 환경에서도 빠르고 비용 효율적으로 ‘계획 인지 압축’을 실행할 수 있습니다. 실제 평가에서 교사의 97% 이상의 압축 품질을 확보하면서 비용은 10배 이상 줄였습니다.

4. 지시문(Instructions) 공동 최적화

컨텍스트 압축 뿐 아니라, 컨텍스트 내에 포함된 지시문도 동시에 재편집하여 플랜의 흐름과 일치하도록 유지합니다. 이 점은 특히 다단계 작업에서 ‘지시문 붕괴(drift)’를 막는데 큰 도움이 됩니다.

5. 결과 기반(Outcome-level) 최적화

단순 토큰 수준 손실 대신, 전체 작업 결과의 정확도와 의미적 유사성을 평가해 압축 정책을 학습합니다. 이런 접근법은 실용적인 작업 성능 검증에 강력한 기반이 됩니다.


실험 결과 및 기존 방법과의 차이점

PAACE는 AppWorld, OfficeBench, 8-Objective QA 같은 복잡한 다단계 벤치마크에서

  • 정확도(Accuracy, F1 등) 향상
  • 컨텍스트 토큰 사용량 및 추론 비용 감소
  • 다단계 논리 연결(Reasoning)이 더 견고하게 유지됨

을 일관되게 보여줬습니다.

예를 들어, OfficeBench에서 전통적 요약 기법 대비 PAACE는 78.1% 정확도를 기록해 74.7%였던 Acon을 앞섰고, 최대 컨텍스트 토큰 수와 누적 주의(tokens cumulative dependency)를 대폭 줄였습니다. 이는 단순 요약이나 단일 쿼리 기반 압축들이 ‘계획 지식’을 반영하지 못해 중간 의존성이 깨지고 추론이 흔들리는 문제를 해결한 성과라고 볼 수 있습니다.

또한 PAACE는 어느 정도 컨텍스트의 ‘정리(cleaning)’ 기능도 하여, 오히려 ‘무압축’ 대비 더 나은 성능을 자주 보여줬는데, 이는 정보 과부하를 줄여 LLM이 핵심에 집중할 수 있도록 도왔기 때문입니다.


왜 요즘 이 논문이 더 주목받을까요?

  1. 컨텍스트 관리가 LLM 에이전트의 최대 병목!
    지금 AI 산업에서 ‘플래너+도구 사용’ 조합의 다단계 에이전트가 붐입니다. 이들의 성능 한계는 모델 크기보다 컨텍스트 관리에 있다는 점, 아마 들어보셨죠? PAACE는 이 문제에 대해 ‘체계적이고 학습 기반’으로 해답을 제공합니다.
  2. 실제 적용 가능한 모델 경량화 전략 제시
    거대모델 기반 압축 정책을 실용적 경량 모델로 증류해 실시간 적용이 가능합니다. 최신 연구 중에도 이처럼 ‘규모 축소+고성능 압축’을 제대로 구현한 사례는 드물죠.
  3. 합성 데이터로 극대화한 감독, 반복 평가 통한 신뢰도 확보
    실제 데이터를 충분히 확보하기 어려운 다단계 에이전트 환경에서 대규모 합성 데이터 활용과 결과 중심 교육은 PAACE를 단순 아이디어 논문 그 이상으로 만듭니다.

마무리하며: PAACE가 가져올 미래

PAACE는 LLM 기반 에이전트에게 ‘컨텍스트 최적화’라는 새로운 설계축을 제안합니다. 단지 모델 아키텍처 확장이나 단순 요약이 아닌, 에이전트의 행동 플랜과 다단계 흐름을 이해하고 그에 맞춰 정보를 걸러내고 수정하는 과정 전체를 기계적으로 학습하는 프레임워크이니까요.

덕분에 긴 작업을 수행하는 AI들이 더 적은 계산비용으로 더 정확하고 일관된 결과를 줄 수 있습니다. 곧 다양한 산업 영역에서 복잡한 자동화 시스템의 ‘스케일링 문제’를 획기적으로 완화할 수 있을 거예요.


혹시 LLM 에이전트를 만들거나, ‘사람-코드-도구’ 다중 단계 매끄러운 연동에 관심이 많으시다면, PAACE 논문은 꼭 한번 정독하시길 추천드립니다. 기술적 깊이와 실용성을 동시에 겸비해, 현장에 즉시 도입 가능한 인사이트가 많이 담겨 있습니다.

읽어주셔서 감사합니다!