안녕하세요! 오늘은 최근에 발표된 논문 중에서 ‘PLAN FOR SPEED: DILATED SCHEDULING FOR MASKED DIFFUSION LANGUAGE MODELS’를 소개해 드릴게요. 특히 전통적인 비슷한 모델들과 비교해 기술 혁신이 어디에 있는지, 그리고 실제 쓰임새에 어떤 영향을 줄지 짚어드리겠습니다.
---
# 기존 마스킹 확산 모델(MDLM)의 한계와 DUS의 등판!
최근 텍스트 생성 모델로 ‘Masked Diffusion Language Models(MDLM)’가 화제인데요, 전통적인 자동회귀(AR) 모델과는 달리 여러 토큰을 병렬로 생성할 수 있는 점에서 기대를 모으고 있습니다. 하지만 기존 MDLM 추론에서는 토큰을 어떤 순서로 ‘언마스킹(복원)’할지 결정하는 계획자(planner)가 주로 denoiser의 자신감이나 엔트로피 기준에 의존하는 게 현실입니다.
문제는 병렬로 여러 토큰을 한꺼번에 복원하려 하면 이런 단순 히유리스틱은 서로 연관된 토큰 간 상호작용을 간과해 오류가 누적되면서 품질 저하가 발생한다는 점입니다. 그래서 실제로는 AR과 마찬가지로 순차적인 복원 방식을 취해 효율이 떨어지는 한계가 있었습니다.
---
# 핵심 기술: Dilated Unmasking Scheduler (DUS)란?
이 논문의 주인공인 DUS는 ‘추론 시점에서만 동작하는, 추가 학습 필요 없는, 완전 새로운 스케줄러’입니다. 기존 방식과 달리 토큰 간 거리를 최대한 띄워서(희소하게) 복원하는 순서를 미리 정해버려, 서로 정보가 겹치지 않고 독립적인 분포로 간주할 수 있게 합니다.
이를 위해 첫째, ‘1차 마코프’를 가정해 토큰 시퀀스를 마코프 체인처럼 보고 서로 먼 토큰들은 상호 정보량이 매우 적다는 통계적 근거를 활용하고요.
둘째, 토큰 블록 내에서 초기엔 띄엄띄엄 복원하다가 점점 간격을 좁혀가며 복원하는 점진적 ‘희소→밀집’ 구조(즉, dilated scheduling)를 적용합니다. 예를 들어, 길이 8짜리 블록이면 처음 1, 5번 토큰 언마스킹 → 다음엔 3,7 → 마지막엔 2,4,6,8 순서로요.
이 방식 덕분에 한 번에 복원하는 토큰들이 서로 멀리 떨어져 있어 불필요한 정보 중복이나 상호 의존도가 적고, 덧붙여 모델의 denoiser를 호출하는 횟수를 대폭 줄여 복잡도를 기존 O(B)에서 O(log B)로 줄일 수 있습니다.
---
# 왜 이게 기술적 혁신인가?
- 추론 속도 개선: 기존 오토리그레시브나 단순 확신(Confidence) 기반 플래너들은 매 토큰마다 denoiser를 호출해야 했는데, DUS는 병렬을 극대화해 훨씬 적은 호출로 같은 길이 문장 생성 가능.
- 추론 품질 유지 및 향상: 앞선 confidence-based는 가까운 토큰끼리 묶여서 복원하며 중복 오류가 쌓였지만, DUS는 서로 연관 적은 먼 토큰부터 복원해 정보 손실 없이 결과물의 엔트로피를 최소화.
- 추가 학습 불필요: Planner이나 정책네트워크를 따로 학습시키지 않고 기존 pretrained MDLM에 그대로 적용 가능. 즉시 실제 환경 적용이나 기존 모델 업그레이드에 쉬움.
- 이론적 근거 튼튼: 논문에서 마르코프 체인 가정과 최대상관관계 개념(Hirschfeld–Gebelein–Rényi maximal correlation coefficient)을 활용해 서로 멀리 떨어진 토큰들의 상호정보가 작다는 걸 수학적으로 증명함.
---
# 이미 나온 모델들과의 차별점
| 모델/기법 | 플래너 방식 | denoiser 호출 횟수 복잡도 | 학습 추가 요구 | 품질-속도 균형 |
| 기존 AR 모델 (ex: LLaMA) | 순차적, 블록 단위 반영 | O(N) (토큰 수에 비례) | 없음 | 속도 느림, 품질 좋음 |
| Confidence-based 플래너 | 확신도 기반 순차적 선택 | O(B) (블록 크기 비례) | 없음 | 빠름, 오류 누적 위험 존재 |
| Dream, LLaDA 의 외부 플래너 | 학습된 정책 기반 | O(B) | 별도 정책 학습 필요 | 성능 개선 가능하지만 복잡도 증가 |
| DUS (본 논문) | 희소 dilated deterministic 스케줄 | O(log B) | 100% 학습 불필요 | 속도 최고, 품질 유지 또는 상승 |
즉, 기존에는 속도를 내려면 품질 희생 또는 학습 복잡도 증가를 감수해야 했던 반면, 이번 DUS는 세 마리 토끼를 모두 잡았습니다.
---
# 실험 결과로 본 가치
- 수학 문제 풀이(GSM8K), 코드 생성(HumanEval, MBPP) 등 복잡한 완전범위 토큰생성 작업에서
- 동일한 함수 평가 횟수(NFE) 내에서 confidence-based 플래너 대비 최대 27% 정도 정확도 향상
- 최고 약 10배 빨라지는 추론 속도 타임스케일 가능
- “속도 올리면 품질 떨어지는 딜레마” 관행을 깬 모범 사례
---
# 마치며: 앞으로 기대할 수 있는 점!
- DUS는 거대 언어 모델들의 비약적인 속도 향상 길을 열어주면서 ‘추론 스케줄러’라는 새로운 연구 방향성을 제시
- 별도의 훈련 필요 없이 바로 기존 모델에 적용 가능한 데다, 확장성도 높아 다양한 작업과 길이대 문장에 활용 가능
- 특히, 이제 MDLM을 통한 대규모 병렬 텍스트 생성이 ‘실용적’ 단계에 접어들었음을 알리는 신호탄
- 앞으로 비슷한 ‘희소 샘플링’, ‘스케줄링 기반 플래너’ 연구들이 봇물 터질 듯합니다!
---
이번 논문은 ‘속도와 품질 두 마리 토끼 잡기’라는 AI 언어모델 개발의 핵심 숙제를 우아하게 해결했다는 점에서 기술적 가치를 높이 평가할 만합니다. 기존 작업 대부분의 근본적 성능 병목을 인사이트를 동원한 수학적 분석과 간결한 알고리즘 설계로 대폭 극복했다는 점이 인상적이죠.
여러분도 만약 MDLM, 즉 마스킹된 디퓨전 텍스트 모델 쪽에 관심 있으시거나 빠른 병렬 생성 방식에 실용적 대안을 찾으셨다면, DUS 논문은 꼭 읽어봐야 할 귀중한 자료라고 자신 있게 추천드립니다!
다음에도 AI 최신 연구를 쉽고 재미있게 풀어드릴게요. 함께 기술 트렌드 놓치지 말아요!
---
참고 링크: [논문 원문 (arXiv)](https://arxiv.org/abs/2506.19037)
감사합니다!
'AI' 카테고리의 다른 글
| “대형언어모델과 사회학 이론의 만남: AI 에이전트가 조직 내 숨겨진 암묵지를 95% 완전 재구성한 혁신적 시뮬레이션” (2) | 2025.07.09 |
|---|---|
| “인과적 공정성으로 의료 AI 편향 잡는다: LLM 활용 합성 데이터 생성의 혁신적 접근, FairCauseSyn 논문 리뷰” (3) | 2025.07.08 |
| GPT‑1, “Generative + Pre-Training” 조합이 가져온 혁신 (1) | 2025.07.03 |
| “생각하는 AI의 첫걸음: 복잡한 공간 추론과 계획 능력을 한눈에 보여주는 𝕄ARBLE 벤치마크” (2) | 2025.07.02 |
| “THE-Tree: 인과적 기술 진화 트리로 AI의 과학 아이디어 검증과 미래 예측을 혁신하다” (1) | 2025.07.01 |