LLM에 내장된 ‘작은 프로그래머’—TMK 프롬팅으로 극복한 대형언어모델의 계획 한계와 65.8% 성능 도약

안녕하세요! 오늘은 "Knowledge Model Prompting Increases LLM Performance on Planning Tasks"라는 최신 논문을 리뷰해드리려고 합니다. 제목만 봐도 뭔가 엄청난 ‘지식 모델 프롬팅’이 LLM(대형언어모델)의 계획(planning) 능력을 크게 올려줬다고 하네요. 저도 논문을 읽으면서 놀랐던 점들 많았는데요, 특히 기존 체인 오브 쏘트(CoT) 같은 대표적인 프롬팅 기법들과 견주어 봤을 때 얼마나 차별점이 있고, 앞으로 AI 분야에 주는 시사점이 큰지 재해석해 보겠습니다.

큰 그림: LLM은 왜 ‘계획’을 못할까?

최근 연구들(예: Valmeekam et al., 2023; Chan, 2024 등)이 지적하듯, 대형언어모델은 사실상 진짜 ‘논리적 계획’ 문제에 쉽게 실패하는 경우가 많습니다. 왜 그럴까요? LLM들이 주로 ‘대규모 텍스트 데이터’ 기반 다음 단어 예측을 하면서 학습됐기 때문입니다. 말하자면, “계속 쓰기”에 최적화돼 있지만, 복잡한 단계별 조작(action)과 ‘왜’ 그런 행동을 해야 하는지 스스로를 설명하는 능력은 부족합니다. 기존 대표 프롬팅 기법인 CoT(Chain-of-Thought)도 “생각의 흐름”을 문장으로 유도하지만, 실제 엄격한 계획 도메인에서는 큰 성과를 내지 못한다는 비판이 많았죠.

TMK: ‘왜’를 묻고, 체계적으로 ‘어떻게’를 명시한다

이 논문은 학습 및 교육심리학에서 쓰이던 Task(목표) - Method(방법) - Knowledge(지식), 즉 TMK 프레임워크를 LLM 프롬프트에 도입했습니다. TMK는 단순히 ‘무엇을 할지’뿐 아니라 ‘왜 하는지(목적)’를 명확히, 계층적으로 분해함으로써 자가 설명(self-explanation)을 촉진하는 구조화된 지식 표현 방식인데요.

Task: ‘왜 이 일을 해야 하는가’ 목표와 전제조건 정의
Method: ‘어떻게 수행할 것인가’ 절차적 메커니즘(행동)
Knowledge: ‘무엇이 필요하고, 어떻게 연결되어 있는가’ 도메인 규칙 및 관계

기존 프롬팅은 보통 ‘무엇’을 묻거나 순차적으로만 접근하지만, TMK는 ‘왜’가 명시돼 계획의 인과관계와 목적론적(teleological) 의미까지 명료하게 드러냅니다. 이런 ‘왜’를 아는 게 실제 사람의 계획에 매우 중요한데, LLM도 결국 인간 지적 모델을 모방하는 기계인지라 TMK 언어가 크게 도움을 줄 거라 기대했습니다.

기존 프롬팅 기법과 TMK의 기술적 차별점

Chain-of-Thought (CoT)
단계별 사고를 자연어로 풀어내는 방식. 문장 중심이라 길어지면 컨텍스트 윈도우 내 의미 소실, 그리고 ‘근사적’ 사고 모델에 머무르는 한계가 큼. 실제 엄격한 계획 검증(PlanBench)에서는 큰 점수 향상이 없었음 (1~2% 정도 상승).
ReACT
행동과 추론을 섞어가며 문제를 풀지만, 너무 비슷한 예제를 입력해야 성과가 나는 ‘특정예제 의존성’ 문제와 인지 부담 있음. 문제도 도메인별로 섬세하게 맞춰줘야 해서 범용이 어렵다는 지적.
Chain-of-Symbols (CoS)
상징적 표상을 도입했지만, 적용 도메인이 Blocksworld와 유사해도 Systematic 독립 검증 체계는 미흡.

반면, 논문 주목하는 TMK 프레임워크는:

명확한 인과-목적 구조를 갖고 있어 ‘왜’를 표현 가능
이런 구조가 JSON 형태로 명확히 기술돼, 코드처럼 인식 가능 (코드 데이터 학습 경험이 많은 LLM에 유리)
PlanBench 라는 엄격한 공식 계획 검증 벤치마크 기준에서 성능 대폭 개선(최대 65.8% 점수 상승!)
Random Blocksworld 같은 ‘완전 기호적(opaque)’ 문제에서도 전례 없는 성능 향상

특히 PlanBench에선 ‘Mystery’(의미없는 단어 변환), ‘Random’(완전 기호화) 변종 문제로 LLM의 자연어 의존도를 배제하고 진짜 내재적 계획 능력을 테스트하는데, TMK는 이런 환경에서 특히 빛났습니다.

실험 결과: TMK가 최고 성능 찍다

주목할만한 점은 ‘성능 역전 현상’입니다. 예를 들어, OpenAI의 o1 모델은 기존 Plain Text 프롬프트에서는 Mystery(의미 변형) 도메인 점수가 Random(완전 난수 토큰) 도메인보다 확실히 높았습니다. 즉, 모델이 의미에 의존하는 경향이 강했는데요. TMK 프롬프트를 사용하면 이게 뒤집혀서 Random 도메인에서 무려 97.3%의 정확도를 기록했고, Mystery 도메인 성능도 높지만 Random가 더 우위에 서는 상황이 되었습니다.

이게 의미하는 바는 무엇일까요? TMK 구조가 LLM 내부 추론 경로를 ‘텍스트 기반 의미 추론’에서 ‘코드-같은 상징 조작 모드’로 전환시키는 ‘추론 스위치’ 역할을 한다는 겁니다. 이 점은 Chen et al.(2024) 연구에서도 ‘코드 실행’과 ‘텍스트 추론’을 분리하며 증명됐죠.

TMK가 가지는 기술적 가치와 시사점

계층적 구조화 + 인과-목적 표현
TMK는 ‘왜’를 명확히 기술해 LLM이 문제를 목표-방법-지식 구조로 분해하게 하고, 이를 통해 체계적인 ‘절차적 계획’을 가능케 함
코드에 가까운 JSON 포맷
대형언어모델이 코드훈련 데이터를 많이 접한 점을 활용. TMK가 ‘변수-할당-논리’ 구조로 돼 있어, 자연어보다 ‘기호적 및 형식적’ 추론에 적합함
일반 자연어 프롬팅과 달리 ‘추론 모드’ 스티어링
무작위 단어라도 TMK구조 아래선 의미의 혼란 없이 논리적 조작 수행
엄격한 계획 검증기준(PlanBench) 만족
‘결과만 맞춘다’가 아니라 ‘모든 계획 단계와 이유’가 정확해야 점수 인정 -> 실제 계획 능력 향상임을 공식적으로 입증
기존 CoT, ReACT, CoS 한계 극복
기존 기법들이 문제로 지목받은 예제 의존성, 의미 혼동 문제를 TMK가 완화

블로그 독자분들을 위한 한 줄 요약!

TMK 프롬프트는 마치 LLM에게 ‘내 마음속에 작은 프로그래머를 심어주는 것’과 같아요! 문장 대신 코드처럼 구조화된 목표-방법-지식을 보면서, LLM들이 복잡한 계획 문제도 찰떡같이 푸는 마술을 보여줍니다.

앞으로의 전망과 활용 방향

다른 도메인 확장
현재는 Blocksworld(블록 쌓기 게임) 도메인만 실험했지만, Logistics(물류), Multi-agent Coordination(다중 에이전트 협력) 등 복잡한 계획 문제에 TMK를 적용하면 LLM 계획 문제 해결의 새 물결이 될 수 있음
더 큰 모델과 최적화 모델간 차이 분석
‘o1-mini’ 같이 경량화된 모델에서는 TMK가 오히려 성능 저하를 일으켜, 모델 용량과 구조 복잡도의 상관관계 연구 필요
TMK 대비 다른 계층적 계획 프레임워크(HTN, BDI 등)와 성능 비교
TMK만의 지향점인 ‘왜’가 왜 중요한지 더 증거를 모으기 위한 연구 기대
LLM 내 추론 토큰 활용 분석
앞으로 투명한 LLM 토큰 단위 추론 과정을 분석해 TMK가 코딩적 모드 전환을 본격적으로 유도한다는 가설 실험

결론적으로...

저는 이 논문이 “LLM의 몰랐던 계획력 성장 비법”을 잘 보여준 좋은 연구라고 봅니다. 흔히 LLM을 ‘단지 문장 생성기’라고 치부하지만, TMK 같은 지식 구조화 프롬팅으로 ‘진짜 이유와 방법론을 이해하는 프로그래머’로 재탄생할 수 있음을 보여줬어요. 검색과 단순 QA 넘어서, 자율적 계획과 행동까지 가능한 AI를 꿈꾸는 분이라면 절대 놓칠 수 없는 내용입니다.

관심 있으신 분은 PlanBench와 TMK 프레임워크를 직접 실험해 보시는 것도 추천드려요! 적절한 프롬프트 디자인, 도메인 전문가의 지식설계, 그리고 LLM의 기호적 처리 역량을 함께 활용하는 미래 AI 연구의 길이 여기서 시작됩니다.

긴 글 읽어주셔서 감사합니다. 궁금한 점이나 토론하고 싶은 주제가 있다면 언제든 말씀해 주세요! 다음 리뷰에서 또 만나요~ 😊

'AI' 카테고리의 다른 글

기업 AI 혁신의 새 지평: 이벤트 기반 온톨로지 시뮬레이션으로 ‘의사결정 신뢰성과 완전 감사 가능성’ 보장한 LOM-action 아키텍처 (1)	2026.05.05
ART: 역할 분리와 통계 모델로 '진짜 이유' 밝히는 대형언어모델 기반 투명형 주장 검증 혁신 (2)	2026.05.04
LLM과 몬테카를로 트리 탐색의 만남: ‘스킬’ 구조를 이중 최적화해 AI 에이전트 성능 3% 높이다 (2)	2026.04.21
ODAR: 난이도 예측과 자유에너지 융합으로 LLM 추론의 효율성과 신뢰성을 혁신하다 (1)	2026.04.20
WebXSkill: 실행 가능하며 이해하는 자율 웹 에이전트로 12.9% 성공률을 끌어올린 혁신적 스킬 학습 프레임워크 (0)	2026.04.18