본문 바로가기

AI

“LLM끼리 문제 내고 답하며 평가하는 혁신적 상호검증, ‘LLM-Crowdsourced’가 기존 평가의 한계를 날리다”

안녕하세요! 오늘은 최근에 발표된 흥미로운 논문, “LLM-Crowdsourced: A Benchmark-Free Paradigm for Mutual Evaluation of Large Language Models”을 풀어보려고 합니다. LLM 평가에서 발생하는 여러 문제를 어떻게 혁신적으로 해결했는지, 또 기존 연구들과 어떤 차별점이 있는지 구체적으로 알려드릴게요.


1. 왜 기존 평가에 문제가 있을까요?

대형 언어 모델(LLM)이 점점 똑똑해지고 있는데, 이를 객관적으로 평가하는 것은 점점 어려워지고 있어요. 이제껏 많이 쓰인 평가법을 간단히 살펴보면 세 가지로 나뉩니다.

  • 화이트박스 평가: 공개된 고정 데이터셋으로 성능을 평가해요. 투명하지만, 데이터가 오래 공개되면서 LLM들이 학습 때 봤을 가능성이 커서 데이터 오염(data contamination) 문제가 심각해졌죠. 즉, 실제로 평가가 아닌 ‘암기’한 걸 맞춘 거랑 헷갈릴 수 있죠.
  • 블랙박스 평가: 문제를 숨긴 채 모델을 평가해서 오염 문제는 좀 줄였지만, 운영 과정이 완전히 숨겨져서 투명성과 검증 가능성이 떨어집니다. 뭔가 믿음직스럽지 않은 거죠.
  • 사람 크라우드소싱 평가: 사람들의 주관적 선호를 기준으로 LLM 답변을 비교하지만, 사람마다 기준이 달라서 객관성이 떨어지고, 질문 품질도 들쭉날쭉해요.

이 세 가지 모두 어느 한 가지 ‘평가의 4대 원칙’을 만족시키지 못하는데, 논문에서 말하는 4가지 원칙은 다음과 같아요:

  • Dynamic(동적): 평가 문제도 새로 생성되어야 데이터 오염을 막을 수 있어야 한다는 것!
  • Transparent(투명): 평가 과정과 결과를 완전히 공개해 신뢰를 높여야 한다는 것!
  • Objective(객관적): 개인적 편향 없이 공정하게 평가되어야 한다는 것!
  • Professional(전문적): 전문가 수준 문제로 정확한 능력을 평가해야 한다는 것!

2. LLM-Crowdsourced가 뭘 새롭게 제안했나요?

이 논문의 핵심은 “LLM들이 서로 문제 만들고, 서로 답하고, 서로 평가하는 공동 평가 메커니즘”이에요. 말 그대로, 여러 LLM이 협업해서 평가를 ‘직접’ 수행하는 방식이죠.

  • 문제 동적 생성: 매 평가마다 LLM들이 스스로 고유한 난이도 있는 문제와 정답을 만들어요. 그래서 고정 데이터셋에 기댄 기존 평가 대비 ‘데이터 오염’ 걱정이 훨씬 줄죠.
  • 상호 평가 구조: 한 모델이 문제 출제하고, 다른 모델들은 독립적으로 답변, 또 서로의 답을 평가해요. 서로 평가하니 편향이 완화되고, 사람이 아닌 전문가 LLM들이 평가해 ‘전문성’도 확보됩니다.
  • 완전 공개와 자동화: 질문 생성·답변·평가 과정 모두 공개되고, 누구나 재현 가능해서 ‘투명성’을 갖췄어요.

결국 ‘Dynamic + Transparent + Objective + Professional’ 4원칙을 모두 만족하는 새 평가 패러다임인 셈입니다.


3. 기존 평가법들과 어떤 차이가 있을까요?

평가법 문제 동적 생성 평가 투명성 평가 주체 전문성 수준 데이터 오염 문제

화이트박스 ✗ (고정 데이터셋 사용) 공개 데이터셋 전문가 제작 데이터셋 심각 (오염 우려 많음)
블랙박스 ㅇ (새 문제 가능) ✗ (평가 숨김) 비공개 평가 시스템 전문가 제작 데이터셋 낮음 (평가와 학습 분리)
사람 크라우드소싱 ㅇ (주관적 생성) 부분 공개 사람 투표 일반인-전문가 혼재 낮음 (새 문제 생성 가능)
LLM-Crowdsourced (논문) ㅇ (LLM 직접 생성) LLM 상호 평가 LLM 전문가(수학, 프로그래밍) 매우 낮음 (매번 신규 문제 생성)
  • 특히 전통적인 화이트박스 방식은 결과가 ‘모델별 암기력’에 치우친다는 지적이 많았는데, LLM-Crowdsourced는 매번 새 문제를 만들어서 진짜 ‘추론력’을 봐요.
  • 블랙박스 평가는 투명도 문제, 사람 크라우드는 객관성 문제라는 명확한 한계를 가지고 있었죠.

4. 실제 어떤 실험을 했나요? 어떤 성과를 냈나요?

  • 수학 평가:평가 결과, GPT-4.1, Gemini-2.5-Pro 등이 뛰어난 문제 창의성과 해답 능력을 보였죠. 흥미롭게도, 일부 LLM은 기존 비슷한 문제의 답을 ‘암기’해서 잘못 답하는 ‘메모리 기반 답변’도 발견할 수 있었어요. 이 부분은 고정 문제로 평가하는 기존 방식에선 드러나지 않는 사실입니다.
  • 수학 문제를 LLM들이 직접 만들어냈는데, 예를 들면 “3진법 숫자의 자리수 합을 바탕으로 정의된 디리클레 급수 문제”를 내기도 했습니다. 이러한 문제는 기존 공개 데이터셋이나 사람 평가 방식에선 거의 등장하지 않는 고난도 문제였어요.
  • 프로그래밍 평가:결과적으로 “질문 만드는 능력”과 “풀이 능력”이 명확히 구분되어 LLM별 강점과 약점이 발굴됐고, 특히 Gemini가 높은 난이도 문제를 내면서 솔루션도 탁월했답니다.
  • 프로그래밍 문제도 LLM이 직접 설계했는데, 예를 들어 양자 경로 계산과 같은 최신 주제를 포함하기도 했어요. 정답 평가 역시 코드의 정확성, 효율성, 가독성 등을 종합 반영하여 100점 만점으로 평가하는 방식을 썼다고 해요.

5. 이 논문이 제시하는 핵심 기술적 가치!

  • 완전한 ‘비교 평가 체계’ 구현
  • LLM들이 서로 평가하기 때문에 외부 인간 개입이나 주관적 판단 개입 없이 평가가 완성됩니다. 평가 대상과 평가자가 일치하면서도 서로 견제하는 자연스러운 ‘크로스체크’ 기능을 수행해 객관성과 신뢰성을 크게 끌어올렸어요.
  • 데이터 오염 문제 근본적 해소
  • 기존 벤치마크가 고정돼서 LLM 학습 때 문제 지식이 이미 포함된 것도 모자라 거의 만점 기록이 쌓이다 보니 평가가 소용이 없었는데, ‘문제 자체를 모델들이 만들고 제시’하니, 훈련 데이터 내 문제 유출 걱정이 없고, 동적 난이도 조정과 함께 평가 품질이 유지됩니다.
  • 고품질 문제·평가 데이터의 자동 생성과 재활용
  • 보통 전문가가 문제를 만들고, 사람이 평가하는 비용과 시간 낭비를 줄이고, 반복 가능하며 오픈소스로 공개된 점도 의미가 큽니다. 지속적인 LLM 개선과 새로운 모델 평가에 최적화입니다.

6. 저희가 기억하면 좋을만한 포인트

  1. 기존 평가법, 특히 화이트박스는 ‘암기’와 ‘데이터 오염’ 문제에 발목 잡힌다.
  2. 인간 주관 평가(크라우드소싱)는 평가 신뢰도와 전문성에 한계가 있다.
  3. LLM-Crowdsourced는 상호 평가하는 다중 LLM 협력 구조를 통해 객관성과 투명성을 강화한다.
  4. 수학과 프로그래밍 같이 전문적이고 정확한 답변이 필요한 분야에서 그 진가가 크게 드러난다.
  5. ‘메모리 기반 답변’ 현상까지도 잡아내 기존 벤치마크 방식보다 훨씬 심층적인 분석이 가능하다.

마치며

LLM 기술이 발전하는 속도가 워낙 빠르다 보니, 기존 평가 방식들이 따라가지 못하고 ‘정확한 성능 비교’를 보장하지 못하는 상황입니다. 이 논문은 ‘LLM끼리 직접 서로 평가하도록 하는’ 아주 참신하고 발전적인 평가 패러다임을 제안해, 지금까지의 평가법들이 가진 근본적인 한계를 크게 뛰어넘었죠.

기술적인 면에서 볼 때, 평가 자체를 자동화하고 투명하게 만들면서, 전문적 난이도 조절까지 가능한 이 접근법은 LLM 연구자, 개발자, 그리고 신뢰도가 중요한 산업 현장 모두에게 꼭 필요한 새로운 표준 평가 툴이 될 가능성이 커 보입니다.


이상으로 오늘 리뷰를 마칩니다! 앞으로 LLM 평가에 대해 궁금하시면 이 방법을 꼭 떠올려 보세요. 궁금한 점 있으면 언제든 질문해 주세요! 😊

참고 논문 링크: https://arxiv.org/abs/2507.22359


이 리뷰글이 여러분의 LLM 탐구에 작은 도움이 되길 바랍니다!