DeepPlanner: 불확실성 엔트로피 조절로 연구 에이전트의 장기 계획을 혁신하다

안녕하세요! 오늘은 2025년에 발표된 최신 딥러닝 기반 연구 에이전트 논문인 “DeepPlanner: Scaling Planning Capability for Deep Research Agents via Advantage Shaping”를 살펴보고자 합니다. 무려 아마존과 홍콩과학기술대학, UC 샌디에이고 연구진이 힘을 합쳐 만든 이 논문은, 딥리서치 에이전트(즉, 복잡한 장기 계획을 필요로 하는 연구 과제 해결 AI) 분야에서 큰 반향을 일으키고 있는데요. 여러 기존 연구와 비교했을 때 혁신점이 무엇이고, 왜 이 기술이 중요하며 어떤 방식으로 구현했는지 쉽게 풀어 설명해드릴게요.

1. 논문의 핵심: 불확실성이 높은 ‘계획’ 단계의 최적화

딥러닝 연구 에이전트는 단순히 질문-답변을 주고받는 수준을 넘어, 멀티스텝 ‘기획(Planning)’과 ‘도구 활용(Tool usage)’을 통해 복잡한 리서치 과정을 수행합니다.

그런데 기존 연구들을 보면,

DeepResearcher (2025) 같은 논문은 ‘암묵적인’ 계획 방식을 쓰거나,
EvolveSearch (2025)는 계획을 후처리 단계에서 별도로 다루는 등

명확한 계획 최적화가 체계적으로 이뤄지지 않았다는 점이 관찰됐습니다. 이 부분이 탐색(Exploration)과 최적화(Optimization)에서 매우 큰 병목이었다는 거죠.

특히, vanilla RL(기본 강화학습) 기반 학습을 해보면 ‘계획 단계 토큰들의 엔트로피(불확실성)가 다른 실행 단계 토큰보다 훨씬 높다는 흥미로운 발견이 있었습니다. 이는 ‘계획’을 세우는 순간에 모델이 마땅히 확실한 결정을 못하고 있다는 뜻입니다.

🔍 이런 문제는 기존에는 잘 손대지 않은 ‘계획 단계에서의 불확실성’을 ‘어떻게 효과적으로 줄여줄 것인가’라는 기술적 도전으로 귀결됩니다.

2. DeepPlanner가 제안한 기술적 해법: ‘Advantage Shaping’

이 논문에서 가장 주목할 점은 강화학습의 ‘Advantage Shaping’ 기법을 도입해 불확실성이 높은 계획 토큰들에 학습 신호를 더 강하게 주면서도 ‘엔트로피 붕괴’를 막는 섬세한 조율법을 고안했다는 점입니다.

구체적으로 두 가지 주요 기술이 쓰입니다.

Entropy-based Advantage Shaping (EAS):
토큰별 학습 ‘어드밴티지’를 계산할 때, 엔트로피(불확실성)를 추가로 반영해 불확실한 계획 토큰은 더 큰 업데이트를 하도록 유도합니다. 단, clipping을 해서 음수의 어드밴티지가 플러스로 바뀌는 (잘못된 행동이 보상받는) 일을 차단해 안정성을 강화했어요.
Selective Advantage Upweighting (SAU):
복잡하고 도구 호출이 많은 ‘계획 집중’ 롤아웃(경로)에 대해서 단계별 어드밴티지를 더 크게 줍니다. 기존 EvolveSearch 등이 별도의 SFT(지도학습 재학습) 단계를 넣었던 것과 달리, 이 방법은 엔드 투 엔드 RL 학습 내에서 선별적 강화를 구현해 간소화와 효율화를 동시에 이뤘죠.

3. 기존 방법들과의 차별점 및 기술적 가치

기존 RL 기반 연구 에이전트 논문들과 비교하면 다음과 같은 큰 차이가 있습니다.

특성	기존 DeepResearcher (2025)	EvolveSearch (2025)	DeepPlanner (본 논문)
계획 참여 방식	암묵적, 계획과 실행 혼재	별도의 계획 + RL-SFT 반복	명시적 ‘plan’ 토큰 분리 + end-to-end Advantage Shaping
불확실성 다루기	미흡, 계획 엔트로피 여전히 높음	SFT 단계를 통해 보완	엔트로피 기반 어드밴티지 추가로 계획 불확실성 적극 최적화
도구 호출 최적화	도구 호출 단순 카운팅	도구 호출 많은 샘플 필터링 후 SFT	도구 호출 횟수 기반 Selective Upweighting으로 효율 유도
학습 비용	많음 (대량 샘플, 롤아웃)	더 많음 (SFT 반복)	학습 샘플 3,072회 + 8 롤아웃, 기존 대비 자원 10분의 1 절감
성능	준수하나 한계 존재	개선되었지만 비용 비례	최고 성능(SOTA) + 비용 절감 + 견고한 일반화

위 표에서 보시듯 DeepPlanner는 학습 효율과 성능을 동시에 잡는 ‘기술적 밸런스’, 즉 ‘최대한 적은 데이터와 롤아웃으로도 집중적인 계획 학습과 안정적인 의사결정 능력을 갖춘 연구 에이전트’를 만들었다는 점이 매우 혁신적입니다.

4. 왜 ‘계획 단계의 불확실성’에 집중했을까? – 토큰 엔트로피 관점 분석

논문에서는 실제 실험을 통해 ‘계획 단계 토큰들의 엔트로피’가 크게 높은 문제를 데이터로 제시했습니다.

기존 vanilla RL 훈련에서 ‘계획’ 단계 토큰들의 엔트로피가 0.78로, 다른 실행 단계(0.32)보다 월등히 높았다는 점은 ‘계획’ 결정을 내리는 데 매우 모호함이 남아있음을 보여주죠.
단순히 학습률을 올려 빨리 수렴시키면, ‘엔트로피 붕괴(탐색성 상실)’라는 문제로 인해 오히려 성능 저하가 발생.
DeepPlanner의 EAS는 엔트로피 값을 학습 보상에 적절히 반영하면서도 clipping을 통해 과도한 탐색 억제를 방지함으로써, 엔트로피가 적정 수준에서 안정적으로 낮아지며 성능 개선이 아주 자연스럽게 일어났습니다.

이 점은 RL 학습에서 텍스트 생성 및 긴 계획 문제에 ‘토큰 차원에서의 미세한 정보 이용’이 얼마나 중요한지 크게 강조됐다는 데 기술적 의의가 있습니다.

5. 실험 결과 및 인사이트: 더 적은 학습량으로 SOTA 달성

논문은 여러 딥 리서치 벤치마크(NQ, TQ, HotpotQA, 2Wiki 등)와 도메인 외 데이터(Musique, Bamboogle, PopQA)에서 평가했는데요.

DeepPlanner는 학습 샘플 3,072개, 롤아웃 8개만으로 기존 EvolveSearch의 10배 이상의 학습 자원 대비 더 높은 MBE 점수(67.1)를 기록해 SOTA 달성
→ 데이터/롤아웃 증대가 아닌, ‘계획 최적화 방법’을 달리한 것이 핵심 성공 요인입니다.
구조상 ‘명시적 계획’ <plan> 단계 도입이, 출력 포맷 준수 정확성과 함께 전체 성능 안정ality에 크게 기여했습니다.
selective advantage upweighting은 복잡한 쿼리에서 도구 호출 횟수를 증가시키면서도 무분별한 호출은 줄여, RL-SFT 반복학습 대비 엔지니어링 난이도를 낮추고 학습 속도를 향상했습니다.
RL 과정에서 모델이 점점 더 효율적이고 ‘정확한 계획’을 학습하는 것을 토큰 엔트로피 감소 양상으로 증명했습니다.

6. 기술적 한계 및 앞으로의 과제

저자가 인정한 대로,

현재 계획 토큰의 엔트로피는 여전히 완전히 낮아진 상태가 아니어서, 더 장기 학습을 통해 개선 여지가 큽니다.
평가에 사용되는 LLM 기반 평가자(chatgpt-4o-latest)의 신뢰도 문제도 개선 대상입니다.
‘계획 단계에서의 다차원 보상(품질, 실현가능성, 검증 가능성 등)’을 추가해 더욱 정교한 학습 구조 설계도 한몫 할 수 있겠습니다.

향후 진화 방향은, 이번 논문이 ‘표준’으로 삼을 만한 명확한 RL 기반 계층적 계획 최적화 프레임워크를 제시했다는 점이 중요한 의미를 갖습니다.

마무리하며: DeepPlanner가 AI 연구자 및 현업에 주는 메시지

“명시적이고 분리된 계획 단계”가 복잡한 연구 에이전트의 성공 열쇠임을 정량적으로 입증
엔트로피(불확실성) 관점의 세밀한 학습 신호 조절 (‘advantage shaping’) 기술이 효과적인 학습 가속과 탐색–수렴 균형을 줌
기존 RL+SFT 식 반복 복잡성 해소, 엔드투엔드 RL로 간소화 및 비용 절감 달성
적용 대상이 연구 에이전트라 깊이 있는 자료 탐색, 도구 체인 구성 등 AI 실제 응용과 맞닿아 있음

현재 AI 연구에서 ‘장기 계획’, ‘멀티툴 활용’, ‘지속적 개선’ 이슈를 고민한다면 꼭 한 번 참고해 볼 만한 논문입니다. 나아가 향후 더 적은 자원으로도 복잡한 문제를 해결하는 ‘스마트 플래닝’ 연구가 활발해질 것으로 예상됩니다.

감사합니다! 더 궁금한 점이나 구현 관련 의견 있으면 댓글로 편하게 남겨주세요.

여러분의 AI 연구 여정에 좋은 인사이트가 되길 바랍니다! 🚀

논문 원문 및 코드 참고: DeepPlanner GitHub

논문 전문: https://arxiv.org/abs/2510.12979

'AI' 카테고리의 다른 글

LLM 없이 똑똑하고 빠른 대규모 RAG를 위한 경량 지식 그래프 구축과 1-hop 탐색 혁신 (0)	2025.10.20
GammaZero: 가변 크기 그래프로 POMDP 믿음 상태를 혁신, 제로샷 일반화로 대형 문제도 통째로 정복하다 (1)	2025.10.18
AI의 미래는 시간이다: 범용 문제 해결사로 진화하는 에이전트와 ‘정보는 속도다’의 혁신적 통찰 (0)	2025.10.16
과학 탐구의 혁신: LLM 기반 자율 에이전트가 정보 엔트로피 감소로 여는 완전 자동화 시대 (0)	2025.10.15
최적수송 지도 추정의 불확실성 해법과 현실 데이터 대응력: 통계적 프레임워크의 새로운 지평 (0)	2025.10.14