내부 표현의 핵심만 쏙! SparseRM으로 대규모 언어모델 보상모델을 1% 파라미터로 경량화하고 해석 가능하게 만들다

안녕하세요! 오늘은 최신 AI 논문 ‘SPARSERM: A Lightweight Preference Modeling with Sparse Autoencoder’를 풀어드리려고 합니다. 이 논문은 대규모 언어모델(LLM) 맞춤화에서 아주 중요한 ‘보상모델(Reward Model, RM)’을 훨씬 가볍고 효율적으로 만드는 새로운 방식을 제안했는데요, 기존과는 어떻게 다르고 왜 혁신적인지 알아볼게요.

보상모델(RM)을 경량화하다? SparseRM의 핵심 아이디어

LLM이 인간 선호도에 맞게 동작하도록 맞출 때, 보상모델은 인간 평가를 대체해 ‘어떤 답변이 더 좋은가’를 숫자로 예측하는 역할을 합니다. 하지만 이 RM을 잘 만들려면 수많은 사람이 선호 데이터를 수집해야 하고, LLM을 다시 미세조정하는 데 비용과 시간이 많이 드는 문제점이 있었어요.

대신 SparseRM은 LLM 내부에서 이미 존재하는 ‘특징들’ 중에서 사람 입장에서 중요한 선호 관련 정보를 손쉽게 뽑아내는 데 주목했습니다.

조금 생소하신 분들을 위해 쉽게 말하면, 보통 LLM은 한 문장을 처리할 때 수천 개 이상의 숫자 벡터(‘표현’)를 만듭니다. 이 표현 산 속에 여러 의미 단위가 숨어 있는데, SparseRM은 ‘스파스 오토인코더(Sparse Autoencoder)’라는 도구로 그중 핵심 선호 특징 만을 추려냅니다.
결과적으로 RM은 이 ‘선호 특성’들의 강도를 숫자로 확인만 하면 되고, 복잡한 LLM 전체를 다시 튜닝할 필요 없이 아주 작은 신경망만 학습하면 선호 평가를 할 수 있게 됐어요.

이 ‘희소한(latent) 방향’은 해석 가능하기 때문에 RM의 결정 과정까지 어느 정도 사람이 이해할 수 있다는 게 기술적인 강점입니다.

기존 연구 대비 SparseRM이 가진 기술적 차별점

파라미터 절감 vs 성능 유지
- 전통적인 RM은 LLM 전체 혹은 상당 부분을 재학습하는 반면, SparseRM은 전체 파라미터 중 1%도 채 안 되는 ‘단일층 보상 헤드’만 학습합니다.
- 그런데도 Truthfulness, Safety, Red-Teaming 같은 다양한 복잡한 과제에서 대부분의 주류 RM과 대등하거나 더 좋은 성능을 보여주어요.
분포 변화에 강한 일반화
- DenseRM(기존 방식처럼 전체 표현을 직접 이용하는 모델)은 학습시 분포에서 벗어난 생성 결과에 취약한 반면, SparseRM은 ‘선호 방향’이라는 구조적 특징이 분포 변화에 덜 민감해 실제 사용 시 더욱 믿을 만한 평가를 제공합니다.
선호 기능 해석 가능성
- SparseRM은 각 잠재 벡터가 어떤 의미를 내포하는지 대략 파악할 수 있어서, 왜 어떤 답변이 좋다고 판단하는지 어느 정도 설명할 수 있습니다.
- 이런 ‘이해 가능한 신호’는 기존 불투명한 LLM 미세조정 기반 RM보다 투명성과 신뢰성에서 훨씬 유리합니다.
Online Iterative Alignment와의 원활한 통합
- 최신 LLM 맞춤화 프레임워크인 Online Iterative Alignment, 즉 사용자 피드백을 실시간 반영해 모델을 점진 개선하는 구조에도 손쉽게 붙일 수 있어 현실적 활용도가 높아요.

어떻게 SparseRM이 동작하나요? 간단 찬찬히

먼저 LLM 내부의 특정 층에서 나온 벡터를 SAE(희소 오토인코더)에 입력해 ‘희소한 활성(latents)’들을 찾아냅니다.
각 latent가 긍정적 답변과 부정적 답변에서 얼마나 자주 켜지는지 비교해서, 인간 선호를 가장 잘 구분하는 ‘선호 방향’들을 뽑아내죠.
이후 입력 후보 답변의 벡터를 이 선호 방향들에 투영해 투영값 벡터를 만듭니다.
이 벡터를 간단한 MLP(다층 퍼셉트론) 보상 헤드에 넣어 최종 선호 점수를 예측합니다.

훈련 시에는 선호하는 답변 점수가 덜 선호하는 답변 점수보다 일정 마진 이상 크도록 하는 margin loss를 사용해, 사람의 상대적 선호를 효과적으로 반영합니다.

직접 비교: SparseRM vs 기존 RM들

논문에서 사용한 Gemma, Llama-3와 같은 백본 모델을 바탕으로 실험한 결과:

GRAM, Standard RM, JudgeLM 등 치료된 RM보다 SparseRM은 적은 학습 파라미터로 동등하거나 더 좋은 정확도를 기록했습니다.
특이하게도, DenseRM은 테스트 데이터 내에서는 약간 높은 정확도를 보였지만 실제 alignment (맞춤화) 완료 후 생성 데이터 평가에서는 SparseRM이 훨씬 안정적인 결과를 냈어요.
이는 SparseRM의 선호 방향이 본질적 특징을 잘 포착해, ‘학습 데이터 분포’에서 벗어난 새로운 상황에도 잘 대응하기 때문입니다.

그럼 SparseRM, 우리에게 어떤 의미인가요?

컴퓨팅 비용에 민감한 기업과 연구실, 특히 자원 제약이 있는 곳에서 희망이 될 수 있습니다. 기존처럼 LLM 수백억~수천억 파라미터를 모두 재학습 하지 않고, 1%도 안 되는 극소량 파라미터로도 성능을 확보할 수 있거든요.
AI 투명성, 해석가능성의 길을 열었습니다. 우리가 ‘왜 이 답변이 좋다’고 판단하는지 내부 특징으로 설명할 수 있으니, 사용자 신뢰성 증가에도 큰 기대를 걸어볼 만합니다.
미래 AI Alignment 연구의 방향성 탐색에 핵심입니다. SparseRM의 접근법은 ‘내부 표현을 적극 해석하고 활용하는’ 차세대 연구들을 자극할 겁니다.

마치며

SparseRM 논문은 대형 모델 맞춤화에서 핵심 부품인 ‘보상모델’ 설계에 참신한 통찰과 실용적인 개선을 선사했습니다. 우리도 AI 개발할 때 이런 경량화, 해석 가능 모델에 주목하면 놀라운 생산성 향상과 비용 절감 효과를 누릴 수 있을 거예요.

더 자세한 내용과 코드도 공개되어 있으니, 관심 있는 분들은 꼭 한번 직접 살펴보시길 추천드립니다! 기술적으로 깊이 파고들고 싶은 분께도 아주 좋은 참고가 될 거예요.

읽어주셔서 감사합니다! 다음에도 더 흥미롭고 실용적인 AI 연구 소식으로 찾아오겠습니다. 🙌

SPARSERM GitHub 코드 | 논문 전문 (arXiv)

'AI' 카테고리의 다른 글

의료 AI 혁신: 임상 협업 아키텍처로 불안정한 fine-tuning 한계 극복하고 신뢰도·설명력 동시 강화한 최신 의료 VQA 연구 (0)	2025.11.17
SynthTools: GPT 기반 자동 합성으로 수천 개 도구를 대규모 생성·검증해 AI 에이전트 현실적 도구 활용 혁신 (1)	2025.11.15
에피소드 메모리와 생성적 의미 워크스페이스로 LLM의 긴 문맥 이해와 내러티브 추론 혁신하기 (0)	2025.11.13
실시간 피드백으로 ‘작업 기억’을 동적 제어하는 DMA: RAG 시스템의 한계 극복과 AI 대화 품질 혁신 (0)	2025.11.12
DMA: 인간 피드백으로 온라인 RAG 정렬을 실시간 최적화해 사용자 만족도 15% 끌어올린 혁신적 프레임워크 (0)	2025.11.11