본문 바로가기

AI

스스로 진화하는 다중 에이전트 시스템 ‘Mimosa’가 AI 과학 연구 자동화의 판도를 바꾸다

안녕하세요, 자동화에 관심 많으신 여러분께 오늘은 2026년에 발표된 논문, ‘Mimosa Framework: Evolving Multi-Agent Systems for Scientific Research’를 함께 풀어보는 시간을 가져볼게요. 논문 자체가 꽤 방대하고 기술적으로 깊이가 있지만, 꼼꼼하게 핵심을 전해 드리겠습니다.


Mimosa가 뭐냐고요?

Mimosa는 ‘자율 과학 연구(Autonomous Scientific Research, ASR)’를 한 단계 업그레이드하기 위해 개발된 ‘진화하는 다중 에이전트 시스템’입니다. 쉽게 말해, 과학 연구를 자동으로 해주는 AI 시스템인데, 기존처럼 ‘고정된’ 작업 흐름과 ‘한정된’ 도구 집합에 묶이지 않고, 연구 과제에 따라 다중 에이전트 간 협업 방식과 도구 구성을 ‘스스로’ 진화시킵니다.


기존 시스템과 뭐가 다를까요?

  1. 고정된 워크플로우의 한계 vs. 진화하는 워크플로우
    많은 ASR 시스템들이 ‘고정된 pipeline’을 갖고 있어서, 환경이나 연구 목적이 바뀌면 적응하기 어려웠어요. 예를 들어, 약물 설계 연구에서 가상 스크리닝, 분자 도킹, 분자 동역학 등 단계별 요구가 달라지는데, 고정된 구조는 이를 반영하지 못하죠.
    반면 Mimosa는 DAG(Directed Acyclic Graph) 형태로 워크플로우를 정의해 ‘에이전트 노드’, ‘커뮤니케이션 경로’, ‘도구 할당’을 유동적으로 바꿀 수 있어요. ‘워크플로우 자체’를 발견하고 수정하는 문제로 설정한 점이 가장 혁신적입니다.
  2. 도구 자동 발견(Model Context Protocol, MCP) 적용
    Mimosa는 MCP라는 표준 프로토콜을 써서, 실행 전 네트워크 내 다양한 도구를 자동으로 탐색해 ‘활용 가능한 도구들’을 동적으로 파악합니다. 이 덕분에 새로운 도구가 추가돼도 시스템을 뜯어고칠 필요 없고, 고성능 클라우드나 실험실 기기와도 유연하게 통합됩니다.
  3. 코드 실행 에이전트
    다중 에이전트가 실제 과학 도구 호출뿐 아니라 ‘Python 코드’를 생성해 여러 단계 복잡한 연산, 반복, 입력 전처리 등을 바로 수행할 수 있죠. JSON이나 간단한 API 호출만 지원하는 기존 멀티툴 시스템과 달리, Mimosa 에이전트는 코드를 행동(action)으로 이해해 훨씬 표현력이 뛰어납니다.
  4. LLM-기반 ‘심판(judge)’ 평가 및 반복 진화
    단 한 번 실행으로 끝나는 게 아니라, LLM이 실행 결과를 ‘목표 적합성, 협력 효율성, 출력 품질, 답변 타당성’ 등의 기준으로 평가해 워크플로우 개선 방향을 안내합니다. 이에 따라 meta-orchestrator가 워크플로우를 점진적으로 수정하며 우월한 성능을 가진 구조로 ‘수렴’해요.

기술적 가치와 독창성, 왜 조회수가 높을까?

1) ‘워크플로우’ 구조를 진화시키는 자기개선 시스템

‘에이전트 구성’뿐만 아니고, 어디를 연결할지, 어떤 역할을 추가하거나 빼는지, 심지어 에이전트 프롬프트까지 LLM이 제안하여 조금씩 흐름을 바꿉니다. 이게 대체 왜 중요한가 하면, 기존 연구들은 대개

  • Prompt 튜닝만 한다거나
  • 기본 에이전트 아키텍처만 고정적으로 쓴다거나
  • 대부분 단일 에이전트 혹은 고정된 MAS(multi-agent system)에 머문다

에 머물렀습니다.

 

Mimosa는 이 공간을 ‘구조적 조작’(prompt refinement, agent add/remove, edge rewiring) 으로 탐색하는 ‘local search’에 기반해 성능을 높입니다. 이런 ‘워크플로우 토폴로지의 진화’는 종전 ASR 시스템에 거의 없던 혁신적인 시도입니다.

2) 도구 발견과 실행 환경 완전 분리

Toolomics라는 도구 관리 플랫폼으로 MCP서버들을 컨테이너화해 완전 독립된 공간에서 구동, 충돌 문제 해결과 미확인 취약점 대응책까지 고려한 게 큰 차별점입니다.

  • 기존엔 도구와 환경이 꽉 묶여 있었던 반면,
  • Mimosa는 손쉽게 원하는 도구만 콜해 병렬 실행 가능하고,
  • 의존성 문제 때문에 작업이 중단되는 케이스가 줄어듭니다.

이 덕분에 확장성과 유지보수성이 크게 향상됐어요.

3) 평가 지표와 벤치마크에서 검증된 실용성

ScienceAgentBench라는 다양한 분야(생물정보학, 화학, 지리 학, 심리학)에 걸친 102개 데이터 분석, 통계, 모델링 과제에 도전해,

  • 싱글 에이전트 대비 최대 12%p 이상 성공률 상승,
  • 유명 GPT-4o, Claude Haiku 같은 최신 모델에도 다중 에이전트 워크플로우 개선이 긍정적 효과를 보여줬습니다.

특히 DeepSeek-V3.2 모델이 38.2%에서 43.1%로 약 33% 상대적 성능 향상을 ‘진화된’ 워크플로우를 통해 이루어낸 건 눈여겨볼 만하죠.

즉, ‘학습 가능한 워크플로우 구조’가 실제 AI 연구 자동화에 가치 있다는 명확한 증거를 제시한 것입니다.


Mimosa의 기술을 일상의 예로 풀어볼까요?

  • 기존엔 게시판에 일일이 고정된 글만 쓸 수 있었던 것 같다면,
  • Mimosa는 글 쓰는 사람(에이전트)들끼리 이야기를 하면서 주제별로 분업하고, 대화 흐름을 자기가 알아서 바꾸고,
  • 새롭게 생긴 기능(도구)도 바로 갖다 쓰면서 글 구조를 계속 고쳐나가는 ‘유연한 팀 프로젝트’ 같아요.

기존 AI 연구자동화는 ‘혼자서’ 고정된 틀에서 일했지만, Mimosa는 ‘스스로 조직을 재편성하는 팀’이라니, 세상에 없던 접근 아닐까요?


참고로 기존 논문들과 이렇게 다릅니다

논문/시스템 유형 특징 및 제한점 Mimosa가 뛰어난 점
단일 에이전트 시스템 긴 작업에 정보 손실, ‘의식의 흐름’ 중단 긴 작업을 작은 단위로 나누어 집중하는 다중 에이전트 구성
고정 구조 다중 에이전트 시스템 에이전트끼리 협업하나 구조는 불변 워크플로우를 반복해 재설계하여 상황에 맞게 진화
Prompt 진화 기반 ASR 프롬프트 자체를 진화시키지만 에이전트 구성 고정 프롬프트뿐 아니라 에이전트 수, 역할, 도구 할당, 연결 구조까지 변화
기존 MCP 활용 연구 도구 연결하나, 워크플로우 최적화와 반복 개선 미흡 MCP 도구 자동 탐색과 완전 격리된 실행환경으로 병렬 실행 및 견고함 확보

아쉬운 점과 앞으로의 과제도 솔직히 짚어드리자면

  • Mimosa의 개선 주도하는 ‘LLM 평가자(judge)’가 아직 완벽하지 않고 편향 가능성 존재.
  • 현재 방법론은 '로컬 서치’가 주를 이루다 보니 약 10회 반복하면 개선 정체되기도 합니다.
  • 실험 환경 설정(에이전트가 의존성 직접 설치) 이슈로 싱글 에이전트 성능 비교가 좀 불리할 수 있음.
  • 워크플로우 검색 기록 활용(과거 작업 활용) 실험은 별도로 아직 검증해야 하는 상태.

정리하며

Mimosa는 AI가 과학 연구를 ‘단순 자동화’하는 단계를 넘어,

  • ‘과학 연구 자체를 점진적으로 학습하며 개선하는’ 진화 가능한 협업체계로까지 발전시키는 시스템입니다.
  • 기존 ‘단순 관성 생산’이 아니라 ‘적응적 재설계’를 적용한다는 점이 기술적으로 중요한 혁신 포인트라 할 수 있죠.

그리고 소스코드도 오픈되어 있어 누구나 활용, 개선, 커스텀이 가능하답니다!


오늘 소개 드린 Mimosa, 직접 사용해보고 싶거나 더 깊게 이해하고 싶으시면 논문과 GitHub(https://github.com/HolobiomicsLab/Mimosa-AI) 참고하시면서 체험해보시길 권해드려요.

저도 앞으로 이 분야가 어떻게 발전할지 귀추가 주목됩니다. 첨단 AI기술이 과학 연구의 판도를 어떻게 바꿔나갈지 함께 지켜보아요!

읽어주셔서 감사합니다! 다음에도 재미있는 AI 신기술로 돌아올게요.