본문 바로가기

AI

의료 영상 AI, 스스로 ‘진단 루틴’을 발견하고 진화하는 MACRO의 자기 주도적 성장 혁명

안녕하세요! 오늘은 “Evolving Medical Imaging Agents via Experience-Driven Self-Skill Discovery” 라는 최신 AI 논문을 살펴보고, 기존 연구들과의 차별점과 앞으로의 가능성에 대해 이야기해보려 합니다. 의료 영상 AI 분야에 관심이 있으신 분들께 꽤 흥미로운 내용일 거예요.


의료 AI, 단순 도구 호출에서 ‘자기 성장하는 대리인’으로 진화하다

의료 영상 진단은 한 번에 단순하게 끝나는 문제가 아니죠. 엑스레이, MRI 같은 이미지를 보고 여러 도구(분할, 검사, 계측 등)를 순차적으로 활용하며 점점 진단을 다듬어 가는 과정입니다. 그런데 기존 AI 시스템들은 이런 툴 세트(tool set)를 미리 고정해두고, 그저 정해진 방식대로 ‘도구 호출(tool invocation)’만 하는 수준이었습니다.

 

예컨대 기본적인 LLM 기반 의료 에이전트들은 X레이 하나 보고 병명을 맞추는 데는 뛰어난 반면, 여러 단계를 거쳐 복잡한 진단을 내리는 데는 실패를 자주 겪었습니다. 이는 실제 병원마다 영상 촬영장비, 병리 패턴, 환자 특성이 다 다르기 때문인데요, 한 번 짜여진 ‘고정된 워크플로우’가 환경 변화에 약하다는 한계 때문입니다.


MACRO: 의료 AI가 스스로 ‘진단 루틴’을 만들고 성장하는 방법

이번에 소개할 MACRO(Medical Agent for Composite Reasoning and Orchestration) 프레임워크는 이런 문제를 근본적으로 해결하려고 합니다. 핵심은 ‘의료 AI가 경험을 바탕으로 새로운 다단계 도구 조합을 스스로 발견하고, 이를 재사용 가능한 합성 도구(composite tool)로 등록하며 성장한다’는 점이에요.

  • 기존 의료 에이전트: 고정된 도구 집합과 호출 순서 → 환경변화에 취약
  • MACRO: 성공적인 진단 경로를 경험 메모리에 저장 → 잦은 다단계 도구 시퀀스를 발견 → 합성 도구로 등록해 점점 더 능력 확장 (아래 그림 참조)

출처 https://arxiv.org/html/2603.05860

 

이렇게 하면 마치 ‘임상 의사가 새롭게 습득한 진단 루틴을 지속적으로 환자 진료에 적용하는 과정’을 AI가 흉내 내는 셈입니다.


기술적으로 어떻게 동작하나?

  1. 경험-기반 메모리(Experience-grounded memory)
    기존에 성공적으로 수행된 진단 절차들을 메모리에 저장해두고, 유사한 환자 이미지가 들어오면 이 경험들을 불러와 참고합니다. 단순히 ‘비슷한 환자’ 힌트뿐 아니라, 과거 스텝의 도구 호출과 결과까지도 같이 기억하죠.
  2. 합성 도구 발견(Composite tool discovery)
    저장된 여러 진단 경로에서 반복적으로 나타나는 다단계 도구 시퀀스를 ‘합성 도구’로 등록합니다. 예를 들어, ‘시신경 유두 분할 → 유두컵 분할 → 컵 대비 유두 비율 계산’ 같은 복합 절차가 자주 쓰이면 ‘컵 대비 유두 비율 측정’ 하나의 도구처럼 등록해 재사용 가능!
  3. 정책 최적화(Two-stage policy optimization)
    • 1단계: 이미 확보된 시범(trained teacher)의 경로로 초기 정책을 행동 복제 학습(Behavior Cloning)
    • 2단계: 기존 등록된 합성 도구를 적극 활용하도록 ‘GRPO(Group Relative Policy Optimization)’라는 강화학습 기법으로 다듬음

이렇게 단계별로 안정적이고 효율적으로 진단 계획을 세우게 합니다.


기존 연구 대비 뭘 더 잘했나?

  • 고정된 도구 집합 문제 해결
    일반적으로 LLM-agent들은 ‘툴 라이브러리’가 고정되어 있어 새로운 도구나 조합을 학습하지 못합니다. 반면 MACRO는 사용 경험을 토대로 의식적으로 ‘다단계 도구 조합’을 자동 등록하고, 이걸 다시 정책 훈련에 반영해 항상 업그레이드가 가능하다는 점에서 차별화됩니다.
  • 진단 복잡성 반영 및 다양한 임상 시나리오 대응력 향상
    기존 모델이 단일 태스크나 특정 영상만 잘 다룰 육했지만, MACRO는 녹색형(glaucoma), 심장 질환, 골 침식 같은 다양한 영상과 질병에 적용하여 모두 성능 향상을 입증했습니다.
  • 쉼 없는 자가 학습 루프 도입
    단 한번 학습된 후가 아니라, 임상 현장 사용 중 쌓이는 성공 경험을 기계학습 루프에 피드백해 능력을 점진적으로 확장하는 구조를 갖추고 있습니다. 이는 AI가 ‘한 번 완성된’ 소프트웨어가 아니라 ‘절대 멈추지 않고 발전하는’ 존재임을 뜻하죠.

실제 효과는?

  • 표 1~2 보시면 REFUGE2, MITEA, RAM-W600 같은 다양한 데이터셋에서 MACRO가 기존 GPT-4o, MedAgent-Pro 같은 강력한 모델 대비 최대 30~70% 가까운 F1 점수 향상 성과를 보였습니다!
  • 특히, 정확도뿐 아니라 민감도와 정밀도의 균형까지 잡힌 점이 의미가 깊습니다. 질병 감지에서 흔한 ‘정확도는 높지만 놓치는 사례 많음’ 구조에서 벗어나, 실제 임상에서 필요한 신뢰성 높은 결과를 만들었단 이야기죠.

제언: 의료 AI가 나아갈 길

이번 논문이 시사하는 바는 ‘진단 지식’도 AI가 스스로 쌓고, ‘툴’도 스스로 업그레이드할 수 있어야 진짜 임상에 적용 가능하다는 점입니다. MACRO는 단순 반복 학습 넘어선 ‘스킬 발견과 조합’, ‘경험 반영 자기 성장’이라는 개념을 의료 영상 AI에 전격 적용한 최초 사례입니다.

 

이후에 필요한 것은 좀 더 정교한 품질 보장과 사람-기계 상호작용 연구, 그리고 새로운 영상 모달리티 전이 학습이 될 것입니다. 다만 기술적 혁신이라는 면에서 이번 연구는 기존 LLM-agent 기반 의료 AI들을 “도구만 쓰는 존재”에서 “경험을 통해 도구를 발전시키는 자기 주도적 존재”로 한 단계 도약시켰다고 평가할 수 있겠습니다.


마치며

의료 영상 AI가 ‘혼자 배우고 진화하는 존재’로 거듭나는 모습을 보니 꽤나 기대가 커지네요. 임상 현장의 현실적인 어려움을 잘 포착했을 뿐 아니라, 경험-기반 학습 방식과 강화학습이 만나 완성된 시스템이라 실제 사용 환경에서의 확장성도 기대됩니다.

 

다들 의료 AI 분야에서 보다 자가 진화하는 멀티툴 에이전트를 꿈꾼다면, MACRO 논문 내용을 깊게 읽어보시길 권합니다!


궁금하신 점이나 토론해보고 싶은 내용 있으면 댓글로 남겨주세요! :)



참고 링크