안녕하세요! 오늘은 최근에 주목받는 논문, “DLLM-Searcher: Adapting Diffusion Large Language Models for Search Agents”을 풀어보려고 합니다. 원문은 꽤 전문적인데요, 읽으면서 신선했던 점들을 중심으로 정리해 드릴게요!
1. Diffusion 기반 LLM, 왜 주목받을까?
기존 대부분의 대형언어모델(LLM)은 Autoregressive Model (ARM) 방식이에요. 즉, 문장이나 답변을 순차적으로 왼쪽에서 오른쪽으로 단어 하나씩 생성하죠. 이 방식은 자연스럽고 예측하기 좋지만, 생성 과정이 본질적으로 직렬(Sequential) 거라 병렬처리가 힘들고, 결과 생성 속도에 한계가 있습니다.
반면, 이 논문에서 다룬 Diffusion Large Language Models (dLLMs)은 ‘확산(diffusion) 프로세스’를 통해 텍스트를 생성해요. 핵심은 확산 모델이 동시에 여러 위치에 걸쳐 병렬적으로 토큰을 예측할 수 있다는 거죠. 즉, 병렬 디코딩(parallel decoding)이 가능하고, 생성 순서도 유연합니다.
이 구조적 차이는 앞으로 LLM이 빠르게 진화할 “생성 속도”와 “유연성” 측면에서 혁신적 동력이 될 수 있어요.
2. 기존 Search Agent의 한계 그리고 DLLM-Searcher의 해결책
최근 LLM 기반의 ‘Search Agent’들이 대화 중 필요한 정보를 외부 검색 도구(tool)를 통해 호출해 답변 질의에 활용하는 추세입니다. 대표적 예시로 ‘ReAct’ 패러다임이 있는데요, 이 방식은 다음과 같은 단계를 순차적으로 수행합니다.
- 생각(think, reasoning) 수행
- 도구 호출(tool_call)
- 도구 결과 대기 및 수신
- 결과 기반 다음 행동 결정
하지만 이 과정의 순차성으로 인해, 특히 외부 도구 호출과 응답 대기 기간 동안 모델은 멈춰 있는 상태가 됩니다. 결과적으로 응답 속도(종단 간 지연)가 높아져 사용자 체감이 떨어지고, 실무에서도 쓰기 힘들다는 딜레마가 생기죠.
DLLM-Searcher는 무엇을 달리 했을까?
- Agent Ability Challenge: dLLM이 도구 호출과 복잡한 추론을 잘 못한다는 점을 두 단계의 후속학습(Agentic SFT + VRPO)으로 개선했습니다.
- Latency Challenge: dLLM의 병렬 생성 특성을 살려, ‘Parallel-Reasoning and Acting (P-ReAct)’라는 새로운 에이전트 실행 방식으로 ‘도구 호출 우선’ 생성을 유도해, 도구 호출 대기 중에도 생각(추론)을 병렬 진행 할 수 있게 했어요.
3. 기술적 가치: ‘Agentic Post-Training’와 ‘P-ReAct’의 차별점
3-1. Agentic Supervised Fine-Tuning (Agentic SFT)
기존 dLLM들은 복잡한 ‘도구 호출 포맷’을 잘 따라하지 못하는 문제가 컸는데요, DLLM-Searcher는 ‘도구 호출’과 ‘추론’이 포함된 고품질의 교사 데이터 경로(trajectory)를 모아 SFT를 진행, 정확한 포맷 따라하기와 기반 정보 탐색 능력을 크게 끌어올렸습니다.
- 예시) Vanilla SDAR(기본 dLLM) 모델은 HotpotQA 테스트 500샘플에서 도구 호출 포맷 오류로 단 한 번도 제대로 동작하지 못했어요.
- 반면 SFT 후 모델은 다단계 추론과 검색 툴 호출을 정상 수행.
3-2. Agentic Variance-Reduced Preference Optimization (Agentic VRPO)
SFT 후에는 정확하고 완성도 높은 추론 경로와 도구 호출을 더 정교하게 학습시키기 위해 RL의 일종인 VRPO를 활용, 성능을 최대화했습니다. 즉, ‘잘된 답변 경로’를 ‘덜 된 경로’와 구분하여 모델이 점점 더 좋은 행동을 하도록 맞추는 과정입니다.
3-3. P-ReAct: 병렬 디코딩으로 지연 줄이기
가장 인상적인 기여는 P-ReAct라고 불리는 병렬 행동/추론 패러다임입니다. 기존 ReAct는 ‘생각→도구 호출→대기’를 순차적으로 했지만, dLLM의 블록 내 비순차적 토큰 생성 가능성을 이용해 ‘도구 호출 부분부터 먼저 생성’을 강제로 유도합니다.
- 특수 토큰 <tool_call>, </tool_call>을 미리 채워 넣고
- 이 사이 토큰들의 생성 확률을 인위적으로 올려, 생성 속도를 튜닝
덕분에 도구 호출이 빨리 완료되어 도구 실행 대기하면서도, 모델은 이어서 자유롭게 추가 추론을 수행할 수 있죠. 외부 도구 응답 대기시간을 유용하게 활용하는 이 아이디어가 실제 성능 향상—평균 15% 이상 지연 감소—으로 이어졌습니다.
4. 기존 연구와의 주요 차이점
- Autoregressive LLM들과의 비교
일반 ARMs는 구조상 엄격한 왼쪽-오른쪽 생성 순서를 가진다 보니, ‘도구 호출 우선’ 같은 비순차 생성 전략을 적용하면 성능 저하가 심하게 나타났어요. 반면 dLLMs는 본질적으로 ‘모든 위치의 토큰을 동시에 고려하는’ 구조라 더 안정적으로 병렬 추론 가능했습니다. - 기존 RAG 및 Search Agent들과의 성능
DLLM-Searcher는 전통적 RAG 방식이나 LLM 기반 보편적 Search Agent들과 동등한 수준 이상 성능을 보였습니다. 동시에 이들은 순차 실행의 한계로 지연이 큰 반면, DLLM-Searcher는 15% 가량 더 빠른 사실이 큰 장점입니다. - 기존 dLLM 활용 시 대도전 과제 ‘Agent Ability’ 문제 해결
단순히 dLLM 백본을 쓰는 것과 달리, 체계적인 두 단계 후속학습 전략을 제시해 다단계 추론과 도구 호출이 가능한 ‘에이전트 수준 능력’을 갖게 했다는 점이 독창적입니다.
5. 기술 핵심 정리: 현실 배치에 꼭 필요한 혁신
- 병렬 생성의 실용적 적용: dLLM의 추상적 병렬 디코딩 능력을 실제 도구 호출 병행 처리에 적용해, 응답 속도와 사용자 체감 성능 개선 실현.
- 두 단계 Post-training: 일반 사전학습 모델이 가지는 ‘도구 사용 미숙’ 문제를 ‘고품질 교사 데이터 기반 SFT’와 ‘RL 기반 VRPO’로 효과 정제.
- P-ReAct 매커니즘: 완전히 새로운 agent execution framework, “도구 호출 먼저 생성→대기 중 생각 계속→응답 받자 바로 다음 단계 실행”으로 지연 극복.
6. 읽으면서 느낀 점과 향후 전망
- 속도와 유연성 혁신 기대
dLLM의 본질적 병렬성은 ABST(Autoregressive) 만능주의에 새로운 변화를 가져옵니다. 빠른 응답과 동시에 유연한 생성 순서 제어는 대규모 언어모델 생산성에 큰 변수라 생각해요. - 다양한 에이전트 시나리오 확장 가능성
검색 뿐 아니라 챗봇, 제어 시스템, 복수 도구 협업 환경 등에 적용하면 각 실행 단계의 병목을 극복할 수 있는 강력한 토대가 될 듯합니다. - 단점과 한계는 계속 나올 듯
현재는 ‘특수 토큰을 인위적으로 심는’ 방법에 의지해 순서 제어를 하는데, 더 자연스럽고 안정적인 순서 관리기법 개발도 후속과제가 될 거에요.
결론
DLLM-Searcher 논문은 Diffusion 기반 LLM의 병렬 생성 능력과 현장 에이전트 시스템의 요구사항을 탁월하게 매칭한 점에서 기술 가치가 큽니다. 기존 ARM을 이용한 Search Agent의 느림과 직렬성 한계를, 두 단계 후속학습과 P-ReAct 전략으로 효과적으로 극복했는데요. 향후 빠른 응답이 필수인 산업용 에이전트와 복합 추론 시스템에 매우 의미있는 전환점이 될 것으로 보입니다.
읽어 주셔서 감사합니다! 관심 있으신 분들은 코드 저장소도 함께 확인해 보시면 좋을 것 같아요.
본 포스팅이 도움이 되셨다면 좋아요와 공유도 부탁드립니다! 다음에도 최신 AI 논문 쉽게 정리해 드릴게요 🙂