본문 바로가기

AI

“중복 토큰 제거로 LLM의 추론 집중도와 성능을 동시에 높인 ‘Think Clearly’ 기법 리뷰”

안녕하세요, 오늘은 'Think Clearly: Improving Reasoning via Redundant Token Pruning'라는 최신 논문을 소개해드리려고 합니다.


긴 추론도 가다듬으면 더 똑똑해진다? '중복 토큰 제거'가 답!

최근 대형 언어 모델(LLM)의 눈부신 성장 덕분에 수학 문제나 복잡한 질문에 대해 여러 단계를 차례차례 생각하는 '체인 오브 생각(Chain-of-Thought, CoT)' 기법이 화제가 됐죠. 근데 좋은 모델이라고 해서 모든 중간 생각이 꼭 필요한 건 아니었답니다!

이 논문은 "모든 토큰이 다 중요한 건 아니다!"라는 흥미로운 발견에서 출발했어요. 즉, 모델이 답을 찾는 과정에서 생성하는 중간 문장들 중에 쓸데없는 반복이나 미끄러지는 부분이 꽤 많다는 거죠. 이게 오히려 모델 성능에 독이 될 수도 있다는 점에 주목했습니다.

그렇다면 어떻게 이 '잡음'을 걸러낼 수 있을까요? 바로 '중복 토큰 제거(Redundant Token Pruning)'를 제안하는데요, 이게 단순한 효율화 뿐 아니라 정작 답 맞추기 성능도 향상시키는 신기한 기법입니다!


기존 연구와 다른 점

기술적으로 보면, 기존에는 긴 시퀀스를 다루는 LLM 컨텍스트가 너무 길어지면 메모리와 계산 부담이 심해져서 '토큰 압축'이나 '중요한 토큰만 골라두기' 같은 방법들이 연구됐습니다. 다만, 대부분은 효율성만 보고 정확도 상승은 부차적인 효과였죠.

  • 예를 들어, Zhang et al.(2023)의 H2O 기법은 단순히 누적된 어텐션 값을 기반으로 중요하지 않은 토큰을 제거합니다.
  • 또, Xiao et al.(2024)는 앞부분과 가장 최근 토큰만 남기는 엄격한 컷팅 전략을 씁니다.

하지만 이번 논문은 '중복 토큰 제거가 모델의 성능 자체를 높인다'는 점을 명확하게 제시했습니다. 특히 이 방법은 단순히 '중요도 낮은 토큰 제거'가 아니라, '논리적으로 의미 덩어리(청크)' 단위로 중복을 제거해 추론 과정을 깔끔하게 다듬습니다.


핵심 아이디어: 왜 중복 제거가 성능을 올리는가?

논문에서는 모델 내부의 '생각 마감 토큰'</think>에 주목했는데요, 이 토큰이 진짜 중요한 중간 생각 덩어리에 얼마나 집중(attend)했는지 살펴봅니다. 여기에 '요약을 하라'는 특별한 명령(prompt)을 넣어 모델 스스로 생각을 정리하도록 유도해요.

이를 기반으로 토큰 단위가 아닌 '추론 단계(step)'별로:

  1. 얼마나 정보가 중요한지 점수화
  2. 중복이 의심되는 단계부터 할당된 예산 내에서 토큰 제거
  3. 제거한 뒤 다시 생성하는 방식

을 사용합니다.

이 과정에서 중요한 점은:

  • 단편적인 토큰이 아니라 논리 단위인 '스텝' 단위로 바라본다는 점
  • 요약 프롬프트를 활용해 '중요도 저하' 토큰을 평가한다는 점

인 것이죠.


실험 결과: 수학 경시대회 문제도 척척!

실험 결과 정말 놀라운데요. 특히 난이도 높은 수학 경시대회 데이터셋(AIME, AMC)에서 정확도가 크게 올랐습니다.

  • Qwen2.5-7B 모델 기준, AMC 2023 문제에서 기존 75%에서 무려 82.5%까지 상승! (약 10% 메모리 절감 동반)
  • 다양한 모델과 데이터셋에서 일관적으로 정확도와 효율성 동시 개선 확인

또한, 수학 외 영역(과학 문제 GPQA Diamond)에서도 성능 향상이 입증돼, 논문의 방법이 특정 도메인에만 쏠리지 않고 범용성이 있음을 보여줬습니다.


기술적 가치 총정리!

  • 효율성과 성능의 동시 개선: 기존의 KV 캐시 압축은 보통 속도 개선에만 집중했지만, 이번 방법은 중복 토큰 제거를 통해 추론 집중도를 올려서 정답률도 높였습니다.
  • 플러그 앤 플레이: 모델 재훈련이나 구조 변경 없이, 완전한 테스트-타임(inference-time) 기법으로 구현 가능해 실제 적용 부담 경감.
  • 추론 단계별 계층적 예산 분배: 단일 토큰을 뽑아내는 수준을 넘은 논리 단위 제어로, 의미 있는 컨텍스트 유지 가능.
  • 내부 생각 표현 활용: 명시적 chain-of-thought 체계 또는 중간 생각 토큰이 있는 모델에 최적화돼, 투명한 사고 과정 관리와 분석 가능.

마치며

오늘 소개해드린 '중복 토큰 제거를 통한 명료한 사고' 논문은, LLM 연구에서 구성된 생각에는 반드시 정제가 필요하다는 점을 환기시킨 멋진 기술 성취라고 생각해요.

기존 단순한 어텐션 가중치나 토큰 압축과 달리, 모델의 '내부 사고 과정'을 뛰어넘어 중요한 부분만 남기고 깔끔하게 재편집하는 시도여서 참신하죠? 더불어 이게 단순한 경량화가 아니라 성능을 개선하는 '사고의 다듬기'라는 점이 무척 의미 있다고 봅니다.

앞으로 LLM이 더 똑똑해지고 현명해지려면 이런 '불필요한 생각 걸러내기'가 꼭 필요한 기술 중 하나가 될 것 같아요. 바쁘신 와중에도 끝까지 읽어주셔서 감사합니다! 궁금한 점 있으시면 언제든 댓글 남겨주세요~