DLLM-Searcher: 병렬적 확산 Language Model과 P-ReAct로 기존 검색 에이전트의 응답 속도와 능력 한계를 혁신하다

안녕하세요! 오늘은 최근에 주목받는 논문, “DLLM-Searcher: Adapting Diffusion Large Language Models for Search Agents”을 풀어보려고 합니다. 원문은 꽤 전문적인데요, 읽으면서 신선했던 점들을 중심으로 정리해 드릴게요!

1. Diffusion 기반 LLM, 왜 주목받을까?

기존 대부분의 대형언어모델(LLM)은 Autoregressive Model (ARM) 방식이에요. 즉, 문장이나 답변을 순차적으로 왼쪽에서 오른쪽으로 단어 하나씩 생성하죠. 이 방식은 자연스럽고 예측하기 좋지만, 생성 과정이 본질적으로 직렬(Sequential) 거라 병렬처리가 힘들고, 결과 생성 속도에 한계가 있습니다.

반면, 이 논문에서 다룬 Diffusion Large Language Models (dLLMs)은 ‘확산(diffusion) 프로세스’를 통해 텍스트를 생성해요. 핵심은 확산 모델이 동시에 여러 위치에 걸쳐 병렬적으로 토큰을 예측할 수 있다는 거죠. 즉, 병렬 디코딩(parallel decoding)이 가능하고, 생성 순서도 유연합니다.

이 구조적 차이는 앞으로 LLM이 빠르게 진화할 “생성 속도”와 “유연성” 측면에서 혁신적 동력이 될 수 있어요.

2. 기존 Search Agent의 한계 그리고 DLLM-Searcher의 해결책

최근 LLM 기반의 ‘Search Agent’들이 대화 중 필요한 정보를 외부 검색 도구(tool)를 통해 호출해 답변 질의에 활용하는 추세입니다. 대표적 예시로 ‘ReAct’ 패러다임이 있는데요, 이 방식은 다음과 같은 단계를 순차적으로 수행합니다.

생각(think, reasoning) 수행
도구 호출(tool_call)
도구 결과 대기 및 수신
결과 기반 다음 행동 결정

하지만 이 과정의 순차성으로 인해, 특히 외부 도구 호출과 응답 대기 기간 동안 모델은 멈춰 있는 상태가 됩니다. 결과적으로 응답 속도(종단 간 지연)가 높아져 사용자 체감이 떨어지고, 실무에서도 쓰기 힘들다는 딜레마가 생기죠.

DLLM-Searcher는 무엇을 달리 했을까?

Agent Ability Challenge: dLLM이 도구 호출과 복잡한 추론을 잘 못한다는 점을 두 단계의 후속학습(Agentic SFT + VRPO)으로 개선했습니다.
Latency Challenge: dLLM의 병렬 생성 특성을 살려, ‘Parallel-Reasoning and Acting (P-ReAct)’라는 새로운 에이전트 실행 방식으로 ‘도구 호출 우선’ 생성을 유도해, 도구 호출 대기 중에도 생각(추론)을 병렬 진행 할 수 있게 했어요.

3. 기술적 가치: ‘Agentic Post-Training’와 ‘P-ReAct’의 차별점

3-1. Agentic Supervised Fine-Tuning (Agentic SFT)

기존 dLLM들은 복잡한 ‘도구 호출 포맷’을 잘 따라하지 못하는 문제가 컸는데요, DLLM-Searcher는 ‘도구 호출’과 ‘추론’이 포함된 고품질의 교사 데이터 경로(trajectory)를 모아 SFT를 진행, 정확한 포맷 따라하기와 기반 정보 탐색 능력을 크게 끌어올렸습니다.

예시) Vanilla SDAR(기본 dLLM) 모델은 HotpotQA 테스트 500샘플에서 도구 호출 포맷 오류로 단 한 번도 제대로 동작하지 못했어요.
반면 SFT 후 모델은 다단계 추론과 검색 툴 호출을 정상 수행.

3-2. Agentic Variance-Reduced Preference Optimization (Agentic VRPO)

SFT 후에는 정확하고 완성도 높은 추론 경로와 도구 호출을 더 정교하게 학습시키기 위해 RL의 일종인 VRPO를 활용, 성능을 최대화했습니다. 즉, ‘잘된 답변 경로’를 ‘덜 된 경로’와 구분하여 모델이 점점 더 좋은 행동을 하도록 맞추는 과정입니다.

3-3. P-ReAct: 병렬 디코딩으로 지연 줄이기

가장 인상적인 기여는 P-ReAct라고 불리는 병렬 행동/추론 패러다임입니다. 기존 ReAct는 ‘생각→도구 호출→대기’를 순차적으로 했지만, dLLM의 블록 내 비순차적 토큰 생성 가능성을 이용해 ‘도구 호출 부분부터 먼저 생성’을 강제로 유도합니다.

특수 토큰 <tool_call>, </tool_call>을 미리 채워 넣고
이 사이 토큰들의 생성 확률을 인위적으로 올려, 생성 속도를 튜닝

덕분에 도구 호출이 빨리 완료되어 도구 실행 대기하면서도, 모델은 이어서 자유롭게 추가 추론을 수행할 수 있죠. 외부 도구 응답 대기시간을 유용하게 활용하는 이 아이디어가 실제 성능 향상—평균 15% 이상 지연 감소—으로 이어졌습니다.

4. 기존 연구와의 주요 차이점

Autoregressive LLM들과의 비교
일반 ARMs는 구조상 엄격한 왼쪽-오른쪽 생성 순서를 가진다 보니, ‘도구 호출 우선’ 같은 비순차 생성 전략을 적용하면 성능 저하가 심하게 나타났어요. 반면 dLLMs는 본질적으로 ‘모든 위치의 토큰을 동시에 고려하는’ 구조라 더 안정적으로 병렬 추론 가능했습니다.
기존 RAG 및 Search Agent들과의 성능
DLLM-Searcher는 전통적 RAG 방식이나 LLM 기반 보편적 Search Agent들과 동등한 수준 이상 성능을 보였습니다. 동시에 이들은 순차 실행의 한계로 지연이 큰 반면, DLLM-Searcher는 15% 가량 더 빠른 사실이 큰 장점입니다.
기존 dLLM 활용 시 대도전 과제 ‘Agent Ability’ 문제 해결
단순히 dLLM 백본을 쓰는 것과 달리, 체계적인 두 단계 후속학습 전략을 제시해 다단계 추론과 도구 호출이 가능한 ‘에이전트 수준 능력’을 갖게 했다는 점이 독창적입니다.

5. 기술 핵심 정리: 현실 배치에 꼭 필요한 혁신

병렬 생성의 실용적 적용: dLLM의 추상적 병렬 디코딩 능력을 실제 도구 호출 병행 처리에 적용해, 응답 속도와 사용자 체감 성능 개선 실현.
두 단계 Post-training: 일반 사전학습 모델이 가지는 ‘도구 사용 미숙’ 문제를 ‘고품질 교사 데이터 기반 SFT’와 ‘RL 기반 VRPO’로 효과 정제.
P-ReAct 매커니즘: 완전히 새로운 agent execution framework, “도구 호출 먼저 생성→대기 중 생각 계속→응답 받자 바로 다음 단계 실행”으로 지연 극복.

6. 읽으면서 느낀 점과 향후 전망

속도와 유연성 혁신 기대
dLLM의 본질적 병렬성은 ABST(Autoregressive) 만능주의에 새로운 변화를 가져옵니다. 빠른 응답과 동시에 유연한 생성 순서 제어는 대규모 언어모델 생산성에 큰 변수라 생각해요.
다양한 에이전트 시나리오 확장 가능성
검색 뿐 아니라 챗봇, 제어 시스템, 복수 도구 협업 환경 등에 적용하면 각 실행 단계의 병목을 극복할 수 있는 강력한 토대가 될 듯합니다.
단점과 한계는 계속 나올 듯
현재는 ‘특수 토큰을 인위적으로 심는’ 방법에 의지해 순서 제어를 하는데, 더 자연스럽고 안정적인 순서 관리기법 개발도 후속과제가 될 거에요.

결론

DLLM-Searcher 논문은 Diffusion 기반 LLM의 병렬 생성 능력과 현장 에이전트 시스템의 요구사항을 탁월하게 매칭한 점에서 기술 가치가 큽니다. 기존 ARM을 이용한 Search Agent의 느림과 직렬성 한계를, 두 단계 후속학습과 P-ReAct 전략으로 효과적으로 극복했는데요. 향후 빠른 응답이 필수인 산업용 에이전트와 복합 추론 시스템에 매우 의미있는 전환점이 될 것으로 보입니다.

읽어 주셔서 감사합니다! 관심 있으신 분들은 코드 저장소도 함께 확인해 보시면 좋을 것 같아요.

본 포스팅이 도움이 되셨다면 좋아요와 공유도 부탁드립니다! 다음에도 최신 AI 논문 쉽게 정리해 드릴게요 🙂

'AI' 카테고리의 다른 글

AlphaEvolve가 밝힌 인간과 최신 LLM의 가위바위보 전략 차이: AI가 단순 모방을 넘어 전략적 ‘초월’에 다가서다 (0)	2026.02.13
PreFlect: AI 에이전트가 ‘실패 후 수정’에서 ‘실행 전 예측 수정’으로 진화한 전향적 반성 혁신 (0)	2026.02.12
Jackpot: 롤아웃 비용 절감과 극단적 정책-액터 분포 불일치 문제를 Optimal Budgeted Rejection Sampling으로 해결한 혁신적 강화학습 전략 (1)	2026.02.10
SemanticALLI: 내부 추론 단계별 캐싱으로 AI 마케팅 파이프라인 속도와 비용을 극대화하다 (0)	2026.02.09
단일 LLM에 멀티에이전트 ‘심층 추론 과정’을 내재화해 실시간 AI 추론 혁신을 이룬 AgentArk 리뷰 (1)	2026.02.07