본문 바로가기

AI

중간과정이 답 바꾸는 핵심 증거! FRIT가 AI 추론 신뢰성·정확도 함께 높인 비밀

안녕하세요! 오늘은 최근 AI 연구계에서 화제를 모으고 있는 "Faithful Reasoning via Intervention Training (FRIT)" 논문을  풀어보려고 합니다. 특히 기존의 체인 오브 쏘트(Chain-of-Thought, CoT) 관련 연구와 달리 FRIT가 어떻게 근본적 문제를 해결하고, 왜 기술적으로 의미 있는 접근인지 살펴볼게요.


체인 오브 쏘트, '뇌피셜' 위험에 빠지다

체인 오브 쏘트(CoT)는 대형 언어 모델(LLM)들이 복잡한 문제를 푸는 과정에서 '사고 과정을 단계별로 설명한다'는 가정하에 도입됐습니다. 예컨대, 수학 문제를 풀 때 "첫째, 조건을 이해한다. 둘째, 공식을 세운다. 셋째, 계산한다"와 같이 중간 과정(step)을 모델이 출력해주죠.

 

이게 왜 좋냐고요? 바로 투명성과 디버깅이 가능해진다는 겁니다. 사람이 모델의 '생각 과정을 엿볼 수' 있어 신뢰도가 올라가고, 모델이 틀릴 때 어디가 잘못됐는지 확인하기 쉽거든요.

 

그런데 여기 핵심 문제가 있습니다. 실제로 CoT에서 모델이 중간에 말하는 단계들이 ‘최종 답변에 영향을 주지 않을’ 때가 많다는 거예요. 논문 저자인 Barez et al.(2025)이 "Chain-of-thought is not explainability"라고 비판한 것처럼요. 즉, 중간 과정은 그저 그럴싸하게 꾸민 쇼일 뿐, 모델의 ‘진짜 사고 과정’이 아니라는 겁니다.

 

이 현상은 모델이 불필요하거나 엉뚱한 생각을 ‘말장난’으로 하는 것과 같아서, 위험한 편향이나 디버깅 장애로 이어질 우려가 큽니다.


FRIT: 기술적 가치의 핵심, 자동 인과 개입과 페어 데이터 생성

여기서 이 논문이 제안하는 FRIT 방법이 등장합니다. 기존 연구들은 대부분 CoT의 ‘진짜’ 신뢰도를 측정하는 데 집중했지만, FRIT는 신뢰도를 ‘개선’하는 최초의 자동화, 무인 감독(supervision-free) 방법이라는 점에서 기술적 가치가 높죠.

핵심 아이디어 #1: 인과적(intervention) 개입으로 ‘필수 단계’ 가려내기

FRIT는 모델이 생성한 체인의 각 단계(step)에 대해 ‘인과적 개입’을 진행합니다. 다시 말해, 특정 단계 내용을 일부러 바꿔서 답변이 변하는지 실험해보는 겁니다.

  • 답변이 변하면 → 해당 단계는 ‘인과적으로 중요’
  • 답변이 안 변하면 → 해당 단계는 ‘중요하지 않음(무의미한 스텝)’

이 방식을 논문에선 Algorithm 1, 2로 체계화했는데, 거기서 ‘사실 기반 팩트(사전 생성된 중립적 사실들)’를 문체유지하며 섞어 넣어 문장의 스타일이나 문법이 바뀌지 않게 표현을 바꿔 단계 교체를 진행한다는 점도 인상적입니다. 덕분에 모델은 단순한 문체 차이를 학습하지 않고, 내용의 인과관계에 집중하게 되죠.

핵심 아이디어 #2: ‘페어(쌍) 데이터’ 자동 생성으로 지도학습 기반 미세조정

중요한 점은 이렇게 인과적으로 ‘중요한 CoT 단계’와 그렇지 않은 단계를 포함하는 ‘페어 데이터를 자동으로 대량 생성’했다는 겁니다. 이 데이터로 모델을 “더 신뢰할 수 있는 사고 과정을 선호하도록” Direct Preference Optimization(DPO)이라는 최신 미세조정 기법으로 훈련시킵니다.

 

기존 대표작 FRODO(Paul et al., 2024)랑 차별화되는 기술적 장점이 바로 여기에 있어요. FRODO는 사람의 수작업 필터링과 여러 모델 조합에 의존해서 10억 파라미터 이하 모델에만 적용 가능하지만, FRIT는:

  • 훨씬 큰 모델(7B, 8B 규모)에서 가능
  • 완전 자동화된 인과 개입-페어 데이터 생성 파이프라인 도입
  • 인간 개입 없이도 학습 가능

이 부분이 기술적 혁신이라 할 수 있죠.


FRIT가 가져온 실제 성능 향상과 기술적 시사점

실험 결과도 흥미로운데요. Qwen3-8B, Mistral-7B와 같은 최첨단 언어 모델에 FRIT를 적용하니, CoT 충실도(faithfulness)가 3~3.5%p, 정확도가 7~7.6%p 이상 상승하는 효과를 봤습니다. 단일 fine-tuning 기법이 이런 동시 성능 향상을 가져온 경우는 드물죠.

 

기존 논문들은 CoT 신뢰도를 진단하거나 평가하는 데 주력했기 때문에, FRIT처럼 ‘직접적 미세조정’ 방법론을 통해 신뢰도 자체를 개선한 점이 두드러집니다.

 

더불어, 모델이 불필요한 단계들을 줄이고 ‘진짜 필요한 증거’를 중심으로 사고하는 방법을 배우면서, 답변의 정확도도 자연스럽게 올라가는 것이 기술적 발견입니다. 즉, ‘더 똑똑한 사고’를 유도하는 셈이죠!


기존 연구와는 무슨 차이인가요?

   

연구 핵심 방식 단점 및 한계 FRIT와의 차별점
Wei et al.(2022) CoT prompting 으로 단계적 추론 유도 추론 단계를 생성하지만 ‘진짜 원인’ 검증 없음 인과 개입 통한 단계 영향력 측정
Paul et al.(2024, FRODO) 사람 손으로 퀄리티 필터링 + fine-tune 10B 이하, 수작업 필터링, 다중 모델 의존 완전 자동화, 대규모 모델 지원, 무감독 수행
Lanham et al.(2023) Faithfulness 측정 지표 제안 개선 방법 및 미세조정 미탐구 DPO 기반 fine-tuning으로 ‘직접 개선’ 수행
본 논문 (FRIT) 인과 개입 + 자동 페어 데이터 생성 + DPO로 fine-tuning 컴퓨팅 자원 및 재생성 주기 필요, faithfulness drift 있음 최초 무인 감독 전용 개선 방법, 대규모 모델 적용 가능

 

즉 저명한 CoT 연구들은 ‘왜’ 단계가 영향 있는지를 평가하거나 CoT 사용법을 다듬는 데 집중했지만, FRIT는 ‘그 인과 중요성을 검증 후 학습’하는 ‘치료제’ 역할을 했다는 점에서 의미가 큽니다.


현실적 한계와 앞으로의 기술적 도전

FRIT도 만능은 아닌데요, 컴퓨팅 자원 소모가 크고(예: 7B 모델에 RTX 6000 GPU 4장으로 10~24시간), 훈련 중 label 신뢰도가 달라지는 ‘faithfulness drift’ 문제가 발생한다고 합니다. 다시 말해, 모델이 바뀌면 ‘신뢰할 수 있는’ 페어 데이터 셋이 지속적으로 재생성이 필요해 효과가 흐려질 수 있다는 겁니다.

 

하지만 이런 점은 AI alignment 및 해석 가능성 연구에서 흔히 맞닥뜨리는 기술 난제라, 이 프로젝트 자체가 ‘최첨단 문제 해결 실험장’ 역할을 한다고 할 수 있죠.


마무리하며

FRIT 논문은 "LLM의 중간 추론 단계가 단순한 장식이 아닌, 답변에 실질적 인과적 영향을 끼치도록 학습시키는 최초의 무인 감독 전용 fine-tuning 방법"입니다. 기술적으로 매우 고차원적인 인과 개입 기법과 최신 DPO 미세조정법을 접목해, 신뢰성과 동시에 정확도를 크게 개선했습니다.

 

기존 연구들이 ‘추론 충실도’ 문제를 파악하고 측정하는 데 머문 반면, FRIT는 문제 해결과 ‘현실적 응용’ 관점에서 새로운 길을 제시했습니다.


앞으로도 AI가 ‘왜 그렇게 생각하는지’ 신뢰할 수 있으려면, FRIT 같은 기술적 진보가 계속되어야 할 것 같습니다. 저도 현장에서 더 자세히 실험해보면서, 또 다른 기술 이슈와 성과 공유드릴게요!

읽어주셔서 감사합니다.🙌


참고

  • FRIT 논문 원문 및 코드: https://github.com/Anut-py/frit
  • Chain-of-thought 관련 중요 논문들: Wei et al.(2022), Paul et al.(2024), Lanham et al.(2023), Barez et al.(2025)

이상으로 FRIT 논문을 간단히 풀어봤습니다.