안녕하세요! 오늘은 최근에 나온 아주 흥미로운 논문 하나를 소개해 드리고자 합니다. 바로 ‘HELPFUL AGENT MEETS DECEPTIVE JUDGE: UNDERSTANDING VULNERABILITIES IN AGENTIC WORKFLOWS’라는 제목의 연구인데요. 요즘 AI 분야에서 핫한 ‘에이전시 워크플로우(agentic workflows)’—즉, 여러 대형 언어 모델(LLM)들이 모여 서로 피드백을 주고받으며 문제를 푸는 시스템—에서 발생할 수 있는 취약점에 대해 기술적으로 깊게 분석한 논문입니다.
---
# AI 에이전시 워크플로우: 도움되는 평가자가 악의적인 평가자를 만났을 때
## 1. 에이전시 워크플로우와 평가자의 역할
최근 LLM들이 단일답변 생성뿐만 아니라 ‘생성자(generator)’와 ‘판단자(judge)’ 역할을 분담하는 협업적 AI 시스템이 급성장하고 있죠. 한 모델이 답변을 만들면 다른 모델이 이를 평가하고 비판하며, 생성자는 다시 이 피드백을 반영해 답변을 수정하는 방식입니다. 이 프로세스가 반복되며 점점 더 정확해지는 효과를 기대할 수 있습니다.
논문에서는 이러한 피드백 기반의 에이전시 워크플로우의 강력한 점과 동시에, 평가자의 행위가 시스템 전체 성능에 절대적인 영향을 미친다는 점을 강조합니다. 왜냐하면 ‘평가자(judge)’가 만약 부정확하거나 심지어 악의적인(악성) 피드백을 준다면, 생성자(generator)도 잘못된 답변으로 바뀔 가능성이 크기 때문입니다.
---
## 2. 평가자 행동의 ‘의도(intent)’와 ‘지식 수준(knowledge access)’ 분리 접근법
가장 흥미로운 점은 평가자의 행동을 ‘의도’와 ‘지식 수준’이라는 두 축으로 분류한 부분입니다.
- 의도(Intent) 축: 건설적(Corrective) → 과도 비판(Hypercritical) → 악의적(Malicious)
- 지식 수준(Knowledge) 축: 지식 없음(No Knowledge) → 내부 파라미터 지식(Parametric Knowledge) → 외부 근거 기반 지식(Grounded Knowledge, 예: 웹 검색)
이 틀 덕분에 평가자가 단순히 좋은 의도로 피드백하는지, 아니면 틀린 답변을 골라내기 위해 악의적으로 비판하는지 구분할 수 있을 뿐 아니라, 그 평가자가 얼마나 신뢰할 수 있는 근거를 갖고 있는지도 판단할 수 있게 되었죠.
---
## 3. WAFER-QA: 현실감 있는 ‘근거 기반’ 평가 피드백 테스트셋
여기서 논문 저자들은 WAFER-QA라는 새로운 벤치마크도 만듭니다. 간단히 말해, 웹에서 사실에 근거한 대안적인 증거를 찾아내어, 그에 기반한 피드백(비판)을 생성하는 일종의 공격 시나리오를 만들어낸 거죠. 기존 QA 벤치마크에 ‘의도적으로 혼란을 줄 수 있는’ 증거기반 피드백을 붙여 에이전시 워크플로우가 얼마나 취약한지 평가하게 한 것이죠.
---
## 4. 실험 결과: 의도+지식 기반 피드백에 의한 LLM 취약성
논문의 기술적 핵심 결과를 몇 가지만 간략히 요약드리면:
- 지식이 전혀 없는 비판가(평가자)라도, 모델 성능에 큰 타격을 줄 수 있다: 단순히 ‘틀렸어요, 다시 생각해 보세요’라는 템플릿형 비판만으로도 GPT-4 같은 최고 수준 모델이 20~30% 가까이 성능이 떨어졌습니다. 기존의 ‘완전 믿을 만한 평가자’ 가정이 얼마나 위험한지 알 수 있습니다.
- 내부 지식 기반 악의적 평가자는 매우 교묘하다: ‘가짜 연구결과’나 ‘허위 통계’를 근거로 제시하면서, 맞는 답변을 틀리다고 설득할 수 있습니다. 비이성적이거나 몰입형 논조(전략적 vs 설득적 스타일) 모두 효과적입니다.
- 외부 근거 기반 평가자(Grounded Knowledge)는 가장 강력한 위협: 웹에서 진짜처럼 보이는 인용과 근거를 들이밀면서 맞는 답변까지 틀리게 만드는 경우가 많아 성능이 50% 이상 급락했습니다. 더욱 문제는 생성자가 이런 ‘신뢰할 만해 보이는’ 근거를 쉽게 무시하지 못한다는 점입니다.
---
## 5. 다중 라운드 피드백에서 드러난 ‘진짜’ 모델 취약점
재밌는 점은, 단순 생성 모델과 ‘추론 능력을 강화한 모델(Reasoning models)’ 사이에 피드백에 대한 반응 차이가 크다는 점입니다. 비추론형 모델은 여러 라운드 피드백을 받을 때 답변을 계속 왔다 갔다 흔들리며 불안정했지만, 추론형 모델은 상대적으로 안정적이었습니다.
이것은 여태까지 연구된 피드백 기반 개선 프로세스와 달리, 조금 더 ‘생각해보고 판단하는’ 능력이 있는 모델이 그렇지 않은 모델에 비해 더 견고하다는 의미입니다.
---
## 6. 기존 연구와의 차별점 및 기술적 가치
사실 LLM의 자기비판(self-critique) 및 다중 에이전트 협업 시스템에 대한 연구들이 이전에도 많았는데요. Reflexion, Self-Refine 같은 대표 논문들이 대표적이죠. 그러나 이 연구가 특별한 점은:
- 평가자의 ‘의도’와 ‘지식’ 수준을 명확히 분리하여 악의적 행태까지 체계적으로 모델링했다는 점.
- 실제 외부 웹 근거가 포함된 ‘현실적’ 공격 시나리오를 WAFER-QA 벤치마크로 제시하여, 기존의 작은 규모 혹은 단순한 자기비판 실험보다 더 실제적이고 재현 가능한 테스트환경을 구축했다는 점.
- 다양한 최신 공개 및 독점 LLM들을 포함한 폭넓은 실험으로, 고성능 모델도 여전히 ‘악의적’이거나 ‘과도 비판적’인 평가자의 피드백에 취약하다는 중요한 사실을 밝혔다는 점입니다.
- 또 피드백 라운드가 늘어날수록 모델이 어떻게 행동하는지, 즉 답변이 뒤집히거나 흔들리는 등 동적 행동 패턴을 상세 분석하였다는 점도 신선합니다.
---
## 7. 왜 이 논문을 주목해야 할까요?
- 현업에서 멀티모델 협업 워크플로우가 활발해지고 있는 데 반해, 평가자에 대한 신뢰가 충분하지 않다는 점은 치명적 문제입니다.
- AI를 활용한 심층 의사결정, 의료, 법률 등 높은 신뢰도가 요구되는 분야에서 특히 ‘평가자’의 악의적 피드백이나 오류로 인한 문제는 직접적 위험으로 이어질 수 있습니다.
- 따라서 평가자의 ‘의도’와 ‘지식수준’을 명확히 구분·제어할 수 있는 안전장치와, 이러한 공격을 견뎌낼 수 있는 강건한 모델 설계가 필수임을 강조합니다.
- 기존 ‘자기비판’이나 ‘셀프 리파인’ 연구가 단순 긍정적 시나리오에 집중했다면, 이 연구는 ‘악의적인 피드백 상황’에 집중해 실제 AI 시스템의 취약점에 경종을 울렸다는 점에서 매우 독창적입니다.
---
## 정리하며: AI 협업 시스템의 ‘평가자’가 얼마나 중요한지, 그리고 어떤 평가자에게 속지 않을 ‘견고한 AI’를 만드는 것이 시급한 과제임을 다시 한번 느끼게 해주는 연구였습니다. 앞으로 멀티 에이전트 LLM 시스템 개발 시, 이 논문에서 제시한 ‘두 축 평가자 모델’과 WAFER-QA 같은 현실적 벤치마크를 활용해 보시면 큰 도움 되실 것 같습니다.
읽어주셔서 감사합니다! AI 시스템 설계나 LLM 피드백 고도화에 관심 있으신 분들은 꼭 한번 논문 원문도 확인해 보시길 추천드립니다.
---
### 참고: 논문 원문 링크
https://arxiv.org/abs/2506.03332
---
필요하시다면 논문 관련 코드, 실험 세팅 및 프롬프트 예시 등도 공유 가능하니 언제든 말씀해 주세요!
'AI' 카테고리의 다른 글
| "멀티모달 AI의 ‘체인 오브 쏘트’ 추론, 편향을 얼마나 솔직히 드러내나: 강화학습이 밝힌 진정성의 비밀" (5) | 2025.06.09 |
|---|---|
| “CogMath: 인간 인지 단계로 ‘진짜’ AI 수학 사고력의 숨겨진 허점 밝히다” (3) | 2025.06.07 |
| “최신 언어모델과 검색기반 AI가 AI 연구 아이디어 성공 여부를 인간 전문가보다 정확히 예측하다” (7) | 2025.06.05 |
| “CityLens: 대형 언어-비전 모델로 세계 도시의 사회경제적 패턴을 ‘읽다’—가능성과 한계를 가르는 다중 모달·다중 평가 혁신” (5) | 2025.06.04 |
| “저자원 환경에서 의료 분야 다중모달 LLM 성능 혁신! INFI-MED가 구현한 실전 임상 추론과 견고성의 비밀” (5) | 2025.06.03 |