본문 바로가기

AI

JAF: AI가 협력해 클라우드 취약점 평가 정확도와 신뢰성을 획기적으로 높이다

안녕하세요! 오늘은 최신 논문 “Judge Agent Forest (JAF): Cohort-Level Joint Evaluation for Agentic AI in Cloud Vulnerability Triage”에서 제안한 AI 평가 프레임워크를 풀어 보려고 해요.


JAF가 보여준 AI 평가의 새로운 패러다임: ‘판단자 에이전트’의 협업 시대

최근 AI 시스템들이 점점 복잡해지고, 자동화 수준도 높아지면서 한 가지 문제가 부각되고 있어요. 바로 "AI가 내린 판단을 어떻게 신뢰하고, 개선할 것인가?" 하는 점인데요, 특히 클라우드 보안 같은 민감한 분야에서는 더욱 중요해지죠.

이 논문에서 다룬 JAF(Judge Agent Forest)는 바로 이 문제에 '협업하는 평가'라는 새로운 해법을 제시했어요.


기존 방식과 뭐가 다른가요?

기존 AI 평가(판단) 시스템들은,

  • 각 문제(인스턴스)마다 독립적으로 판단해서 결과를 검증했어요.
  • 예를 들어, 클라우드 환경의 취약점을 하나하나 따로 평가하고 결정했죠.
  • 이렇게 하다 보니, 같은 환경 내 여러 이슈가 가진 상호 연관성과 패턴을 활용하기 어려웠습니다.

(a) Isolated judge reviews (standard pattern).

반면 JAF는,

  • 관련 문제들을 하나의 ‘코호트(cohort)’로 묶어 함께 평가합니다.
  • 예를 들어 '한 기업' 또는 '한 클라우드 계정'에서 발생한 여러 취약점들을 묶어서 판단하는 거죠.
  • 서로 관련된 항목들끼리 정보를 공유하면서 더 일관성 있고 정확한 평가가 가능해집니다.

(b) Joint judge reviews under JAF.

논문 내 Figure 1(a),(b)를 보면 기존 독립 평가와 JAF의 공동 평가 차이를 한눈에 볼 수 있습니다.


JAF의 기술적 핵심 – ‘지식 그래프 + 해시 기반 이웃 탐색’

기술적으로 어려운 점은 ‘같은 코호트 내 데이터들을 어떻게 똑똑하게 묶어서, 연관된 데이터들끼리만 함께 평가하게 할까’였어요. 데이터가 너무 많고, 다양하며, 복잡했습니.

 

여기서 다음 두 가지 혁신이 등장합니다:

1. 지식 그래프(Knowledge Graph) 구성

  • 코호트 내 각 문제(취약점 + 대응) 쌍을 노드로 두고
  • 서로 관련성이 높은 쌍들끼리 엣지(edge)를 쏴서 그래프를 만들어요.
  • ‘같은 서비스’, ‘비슷한 위험도’, ‘공통 네트워크 환경’ 같은 도메인 지식에 기반해 관계를 형성하죠.
  • 이렇게 하면, 평가할 때 ‘이웃’ 이슈들끼리 정보가 자연스럽게 흘러가도록 할 수 있어요.

2. 학습 기반 로컬리티 민감 해싱(LSH, Locality Sensitive Hashing)

  • 기존엔 단순히 k-최근접 이웃(kNN) 같은 벡터 거리 기준으로 이웃을 찾았는데, 이건 관련도 판단에 치명적 한계가 있어요.
  • JAF는 LSH를 정보이론적 기준과 LLM의 판단에 기반해 학습시킨 ‘해시 함수’를 활용해,
  • 유의미하고 해석 가능한 ‘이웃 그룹’을 효율적이고 다양하게 생성합니다.
  • 이 덕분에 ‘비슷하지만 미묘하게 다른’ 그룹들을 잘 나눌 수 있어, 평가 맥락이 풍부해지고 편향 완화에도 도움됩니다.

JAF가 구현하는 '협력하는 판단자'의 힘

JAF의 또 다른 기술적 매력은,

  • 판정자(Judge)는 한 문제를 평가할 때, 단일 답변뿐 아니라 비슷한 여러 문제 결과도 함께 본다는 거예요.
  • 여러 판단이 중첩되고 섞이며, 서로 영향을 주고받는 '언어 기반의 신념 전파(belief propagation)' 구조가 완성됩니다.
  • 반복적 평가를 통해 점차 정확도가 올라가고, 일관적 판단이 가능해집니다.

이것은 전통적인 랜덤 포레스트(무작위성을 띤 다수 결정 트리 집합)와도 유사한 앙상블 이점도 얻는 셈입니다.


왜 클라우드 취약점 진단인가?

  • 클라우드는 수많은 취약점, 구성 오류, 그리고 환경 특성(네트워크, IAM, 컨테이너 등)이 얽혀 있어요.
  • 심지어 동일 취약점도 환경별 해석이 달라서 CVSS같은 점수만으로 정확 판단이 어려운 경우가 많죠.
  • JAF는 이런 복잡한 ‘상호작용’을 AI가 스스로 이해하게 만들어,
  • 단순 견적이 아니라 환경 컨텍스트 전반을 반영한‘우선순위 판단’이 가능해진답니다.

실험 결과: 같은 시간에 더 좋은 판단, 그리고 불확실성 명료화

논문 실험에서,

  • 같은 평가 횟수 내에 JAF가 제공하는 공동 평가 방식은,
  • 기존 독립 판단 방식보다 훨씬 높은 ‘정확도와 안정성’을 보였습니다.
  • 또한, 평가 안정도가 떨어지는 문제(불확실한 사례)는 명확히 표시해줌으로써
  • 사람의 검토가 꼭 필요한 케이스를 자연스럽게 골라낼 수 있었어요.

타 경쟁 연구와 비교하여 차별점

  • 최근 동시 개발된 ‘Batch-of-Thought(BoT)’ 같은 연구도 비슷한 ‘배치 내 연관 문제 공동 평가’를 시도하지만,
  • BoT는 작고 균질한 데이터에 최적화되어 큰 코호트나 긴 문서 처리에 비효율적입니다.
  • 반대로 JAF는 대규모, 이종적, 길이 긴 트라이아지(분류) 작업에 특화됐고,
  • ‘유연한 지역적 이웃 선택’과 ‘반복적 셀프 리파인먼트’를 통해 확장성과 견고성에서 앞서는 구성을 보여줍니다.

기술적으로 왜 매력적인가요?

  1. 현실 작업에 직결되는 구조 — 클라우드 보안부터 소프트웨어 공급망, 대규모 고객 서비스까지, 연관 항목을 종합적으로 판단해야 하는 곳에 바로 적용 가능
  2. 모듈형과 확장성 동시 확보 — 기본 에이전트는 그대로 유지하며, ‘판단자’ 레이어에만 개선사항 적용 가능해 실 서비스 전환 부담 적음
  3. 최신 LLM + 비모수적 지식 그래프 조화 — ‘심층 언어 이해’ + ‘비용 효율적 지역성 해시’의 결합으로 상황에 민감한 전역적 정보 흐름 실현
  4. 반복적 평가와 확률적 신뢰성 제공 — 랜덤한 여러 시점을 통한 확률분포 베이스 평가, 헷갈리는 상황에 대해 인간 검토를 유도 가능

각광받을 만한 이유

  • AI가 ‘나 홀로’ 판단하다가 놓칠 수 있는 미묘한 상황을 해결하는 ‘협업 AI’ 접근이라 구독자, 실무자 모두에게 호기심 자극
  • ‘클라우드 보안+AI’ 두 마리 토끼를 잡은 실제적 응용, 보안/DevOps 분야에서 조회수 높은 주제
  • ‘평가 안정성’과 ‘연관성 반영’이라는 핵심 키워드로 AI 시스템 신뢰도 문제에 직접 대응

마지막 한마디

JAF는 AI 평가를 ‘각 문제별 독립 심사’에서 ‘관련 문제들의 공동 심사’로 한 차원 업그레이드합니다. 정보를 공유하고, 반복적으로 자기 의견을 교정하며, 더 넓은 시야로 판단하는 ‘협력하는 판단자’가 되는 셈이죠. 바쁜 클라우드 보안 담당자 분들께 특히 추천드리고 싶네요!

앞으로 JAF가 더 많은 도메인으로 확장되고 RL(강화학습)과 연계돼 적은 자원으로도 더 똑똑해질 모습이 기대됩니다.


읽어 주셔서 감사합니다!

더 자세한 기술적 궁금증이나 적용 가능성에 대해 얘기하고 싶으시면 언제든지 편하게 말씀해주세요 😊


[참고] 원문 논문 링크: https://arxiv.org/html/2601.22269