게임 거래부터 의료 상담까지, 대화형 AI의 절차적 규칙 준수를 99.6%로 끌어올린 ASTP의 혁신적 자기회귀 상태추적법

안녕하세요! 오늘은 게임 내 거래에서 대화형 AI가 꼭 지켜야 할 절차적 규칙을 기술적으로 어떻게 구현했는지 다룬 최신 논문 “AUTOREGRESSIVE STATE-TRACKING PROMPTING (ASTP)”를 소개해 드리려고 합니다. 특히, 기존 연구들과 달리 LLM(대형언어모델)의 유연성과 거래 절차 준수라는 두 마리 토끼를 동시에 잡은 점에 주목해주세요.

게임 AI, 왜 절차적 규칙 엄수가 중요한가?

최근 LLM을 활용한 NPC(Non-Player Character, 플레이어가 상호작용하는 게임 내 캐릭터)는 매우 자연스러운 대화와 뛰어난 대응력을 자랑합니다. 전통적인 고정 메뉴 방식 대신, 텍스트로 물건을 사고팔 수 있게 되면서 게임 몰입도도 크게 높아졌죠.

하지만 거래에는 항상 ‘검색 → 제안 → 협상 → 확인’의 엄격한 순서가 필요합니다. 대형 언어 모델은 이 대화 흐름을 자연스럽게 만들어내면서도, 이를 임의로 건너뛰거나 무시하는 경우가 종종 발생합니다. 이로 인해 플레이어가 의도치 않은 거래를 하게 되어 신뢰 저하로 이어지는 문제점이 있었죠.

이런 절차 준수 문제는 게임뿐 아니라 콜센터, 의료 상담 같이 ‘자연스러운 대화’와 ‘엄격한 절차’가 모두 요구되는 모든 분야에서 핵심 도전입니다.

기존 연구들과 ASTP의 기술적 차별점

기존 Task-Oriented Dialogue (TOD) 시스템들
일반적으로 목표 달성을 위해 대화 상태를 추적하고 API 호출을 하도록 설계되나, 거래 흐름의 각 단계를 엄격히 준수하지는 않습니다. 예를 들어, AutoTOD는 서브태스크 형태로 목표를 쪼개 처리하지만, 유저 의도에 따라 필수 확인 단계(FINAL_CHECK)를 건너뛰기도 하죠.
→ ASTP는 “단계별 목표 달성”보다 “명확한 상태 표시·추적·검증”에 초점을 맞춥니다.
‘대화 흐름 설계’ 중심 연구
대화 루트를 설계하는 연구들은 있어도, LLM에게 ‘그 흐름을 반드시 지켜야 한다’고 강제하는 런타임 메커니즘은 부족합니다.
→ ASTP는 ‘이전 상태를 명시적으로 추론하고 출력하라’는 제약으로 LLM 행동을 통제합니다.
Chain-of-Thought(CoT) 같은 추론 강화법
‘생각을 단계별로 하라’고 권유하지만, 구체적 절차 준수에는 한계가 있습니다. 추상적이고 임의적인 내부 추론에 그치기 쉽죠.
→ ASTP는 “이전 상태가 무엇인지 반드시 토큰으로 표기해야 한다”는 ‘구조화·검증 가능’한 절차를 만들었기에 무작위성이 대폭 줄고 안정성이 증가합니다.
게임 NPC 관련 기존 연구들
대부분 창의적이고 몰입감 있는 대화에 집중해 절차적 통제를 희생하는 경향이 강합니다. MART 등 일부 거래 NPC 연구도 있지만 다중 아이템 거래나 구매 확인 같은 필수 절차는 완벽히 구현하지 못했습니다.
→ ASTP는 절차 흐름을 아예 상태공간(state space)으로 정의하고 엄격한 적합성 검사를 하면서도 자연스러운 대화 예측까지 성공시켰습니다.

ASTP의 핵심 기술 요소

자기회귀 상태추적 (Autoregressive State-Tracking Prompting)
대화 히스토리와 유저 발화를 토대로 ‘이전 상태’를 먼저 LLM이 추론하여 출력하게 만듭니다
다음 상태 결정과 응답 생성은 이 ‘명시적 이전 상태’ 기반으로 진행돼, 절차적 흐름 준수를 엄격히 강제할 수 있게 됩니다!
구조화된 Prime–Guide–Enforce 워크플로우
- Prime: 이전 상태 먼저 식별하라
- Guide: 상태별 전이 규칙 안내
- Enforce: 이전 상태를 반드시 응답에 포함시켜 검증 가능하도록 이 세 단계가 LLM의 ‘인지 부하’를 체계적으로 줄이면서, 절차적 흐름 준수를 극대화합니다.
상태별 후처리(Post-processing)로 거래 정확성 보장 가격 계산은 LLM이 실수하기 쉬운데, OFFER_SELL 상태에서만 가격 값을 'PRICE' 자리표시자로 두고, 이후 시스템이 정확한 금액을 다시 채워넣는 방식으로 99.3% 수학 정확도 달성. → 복잡한 계산은 외부 시스템에 맡기고, LLM은 자연스러운 대화에 집중하도록 역할 분담한 것이죠.

ASTP가 얼마나 잘 작동하나? – 성능 평가

절차 준수율(State Transition Compliance Rate): 기존 78.1%에서 ASTP 구현 시 99.6%로 크게 상승! 특히 ‘이전 상태 보고 지시(Element 3,4)’가 결합됐을 때 상대 연구들(ZS-CoT, AutoTOD, DFI-Inspired) 대비 절차 준수성에서 현격히 우수함을 보임.
가격 계산 정확도: 단순 ASTP-PPP(후처리 미적용) 대비, PPP 적용시 OFFER_SELL 단계 가격 정확도 81.4% → 100% 달성(전체 거래 단계도 84.3% → 99.3%). 게다가 작은 모델(gemini-2.5-flash)도 큰 모델(gemini-2.5-pro) 수준 성능을 내면서 21.2s → 2.4s 응답시간으로 9배 속도 향상.
대화 유연성과 규모 확장 가능성: Scenario2(추천 대화) 같이 복잡하고 탐색적인 대화에서도 ASTP는 절차 준수를 견고히 지킴.

ASTP가 기존 연구들과 뚜렷하게 다른 점

비교항목	AutoTOD	ZS-CoT	DFI-Inspired	ASTP (본 논문)
대화 상태 관리	서브태스크 단위 분할, 목표 중심	일반적 CoT 기반 추론 강화	상태 전이 그래프 별도 제공	명시적 이전 상태 추론 및 반환 (자기회귀)
절차 흐름 강제	미흡, 중요 단계 자주 건너뜀	내부 추론만 강화, 출력 미강제	그래프 제시, 강제성 낮음	디렉티브 + 출력 강제, 99.6% 준수율
가격 계산 정확성	외부 도구 의존 가능성 높음	계산 오류 여전	미적용	상태별 후처리로 99.3% 정확
속도 및 리소스 효율	중간	중간	중간	경량 모델에서 고성능 모델 수준 속도/정확

정리하며

ASTP는 LLM을 ‘자유로운 대화 생성기’에서 ‘엄격한 규칙을 따르는 절차적 agent’로 변신시키는 핵심 프롬프트 설계법입니다. 이전 상태 정보를 반드시 추론하고 출력하도록 요구함으로써 LLM 내부 과정의 가시성과 신뢰성을 높였습니다. 또, 절차상 가장 민감한 가격 제안 단계에 한정된 후처리로 계산 정확도를 극대화하며, 소형 모델로도 대형 모델 성능을 내도록 설계했습니다.

기존 목표지향 대화 시스템과 달리 '무조건 목표 달성'보다 ‘절차 준수’를 최우선시하는 점, 단순 코칭형 추론 대신 중간 상태 출력의 강제성 메커니즘이 성능을 견인하는 점 등은 매우 신선합니다.

게임 뿐 아니라 쇼핑, 의료, 금융 상담 같은 모든 ‘대화+규칙’ 융합 서비스에 강력한 토대가 될 거라 기대됩니다. 앞으로 더 많은 상태 및 복잡한 전이 규칙으로 확장하고, 오픈 도메인 규칙 단계에서도 적용할 수 있을지 연구가 기대되네요.

관심 있으시면 논문 전문과 프롬프트 예시, 실험 코드도 오픈될 예정이라고 하니 꼭 확인해 보시기 바랍니다!

읽어주셔서 감사합니, 다음에도 재미있고 혁신적인 AI 논문 들고 찾아뵙겠습니다😉

'AI' 카테고리의 다른 글

스몰월드 네트워크로 다중 에이전트 협업 혁신: 안정성, 비용, 정확도를 동시에 잡다 (0)	2025.12.24
PAACE: LLM 에이전트의 컨텍스트 과부하를 넘고 다단계 플랜 인지로 정확도와 효율을 동시에 잡다 (1)	2025.12.23
대형 언어 모델로 Terraform 코드 자동 생성의 한계와 19종 오류 분석, 그리고 지식 그래프 기반 주입으로 성공률 2배 향상한 최신 연구 리뷰 (1)	2025.12.20
초경량 4비트 양자화에도 꿋꿋한 인과추론, 그래프 검색 증강으로 맞춤 보완까지 (0)	2025.12.18
복잡한 LLM 개인화 제약을 람이나 매트로이드로 품어낸, 데이터 최소화 최적화의 새 지평 (0)	2025.12.17