본문 바로가기

AI

사람 손 없이 완성한 도구 활용 AI 에이전트 데이터, SYTHIA가 연 AI 자율학습 혁신

안녕하세요! 오늘은 최신 AI 연구 중 ‘도구 활용 능력을 갖춘 자율 에이전트 학습을 위한 합성 데이터 생성’이라는 주제에 대해 해석해보려 합니다.


SYTHIA: 인간 개입 없는 대규모 합성 에이전트 데이터 생성 프레임워크

최근 인공지능 분야는 대형 언어 모델(LLM, 예: GPT-4)이 단순한 텍스트 생성기를 넘어서 ‘에이전트’로서 다양한 도구(툴)를 활용해 실제 작업을 수행하는 방향으로 급격히 진화하고 있습니다. 예컨대, “관세 문의에 응답하기”나 “계약서 조항 분석 후 법률 문제 발견하기” 같이 구체적인 목표를 ‘계획 → 도구 호출 → 실행 결과 확인’으로 단계별 분해하는 능력이 중요해졌죠.

 

하지만 이런 ‘에이전트 학습’에 필요한 데이터—즉, 사용자 의도, 호출하는 함수와 인자, 실행 결과, 대화 히스토리가 잘 표기된 ‘Agentic Data’—를 사람이 일일이 라벨링하는 것은 사실상 불가능에 가까운 일이에요. 시간과 비용이 엄청나게 들 뿐 아니라, API 같은 도구 사양을 이해하고 올바른 인자를 채워넣는 작업 자체가 고도의 전문성을 요구하기 때문입니다.

 

그래서 이번 논문에서 제안한 SYTHIA 프레임워크는 대형 언어 모델만을 활용해(사람 손 안 거치고!) 완성도 높은 합성 에이전트 데이터를 자동으로 생산하는 종합 솔루션입니다.


핵심 아이디어와 기술적 가치

1. 데이터의 ‘실행 가능성’ 보장: 스키마-기반 생성 + 검증

기존 데이터 합성 연구들은 주로 ‘자연스러운 문장 생성’에 집중해, 실제 함수 호출이나 도구 사용의 문법/의미적 일관성을 보장하지 못하는 경우가 많았습니다. 그에 반해, SYTHIA는

  • JSON 스키마로 엄격하게 ‘입력-출력’ 규격을 정의하고,
  • 다층(다관점) 검증 모듈(스키마 검사, 논리적 일관성 체크, ‘판사’ 역할 모듈)을 통해 생성물을 고품질로 필터링합니다.

이 덕분에, 생성된 데이터는 ‘머신 판독 가능하면서도 오류 없는’ 에이전트 시나리오와 함수 호출 기록을 담고 있어, 바로 학습과 평가에 활용할 수 있다는 점이 가장 큰 기술적 진보입니다.

2. 멀티-파이프라인 구조로 다양한 에이전시 레벨 지원!

논문에서 제시한 4가지 모듈 파이프라인은 아래처럼 역할별로 구분되어 유연성을 크게 높였습니다.

  • RecordSynth: 멀티태스크 단일 턴의 에이전트 기록 완성본 생성을 담당합니다. 도메인→도구 목록→정책의 의사코드(pseudo code)→실행 트레이스까지 한 큐에 만들죠.
  • DAGFirstGeneration: RecordSynth 결과의 작업 흐름(Directed Acyclic Graph, DAG)을 쪼개 각 함수 호출 단위까지 세밀하게 분해해, 자연어 명령–함수 호출–결과 삼중 구조의 미세 레벨 데이터를 뽑아냅니다.
  • MultiTurnDialogueSynth: 멀티턴 대화 시나리오를 시뮬레이션하며, 실시간 툴 호출, 응답 검증, 실패 모의(fail mock) 등을 포함해 현실과 유사한 상호작용 데이터를 만듭니다.
  • AgenticRecordRollout: 완성된 기록들을 자동으로 검증, 버킷화, 직렬화해 실제 모델 학습에 최적화된 포맷으로 전환합니다.

이처럼 ‘전천후’ 파이프라인 설계를 통해 연구자나 엔지니어들은 자신이 원하는 데이터 수준에 맞게 파이프라인을 골라 사용하거나 조합할 수 있습니다. 전체 에이전시 과정을 전산화하고 모듈화한 점이 매우 인상적입니다.

3. 도구 호출 학습과 평가 양립 가능성

대표적으로 Berkeley Function-Calling Leaderboard(BFCL)[27] 스타일 성능평가에 적합한 미세 단위 데이터도 만들지만, 동시에 장기 대화나 복합 정책 논리를 표현한 다중 단계 에이전스 흐름도 재현하는 점이 SYNTHIA만의 차별점입니다.

이부분에서 기존 “Self-Instruct” [8]나 “Magpie” [15]와 달리, 인간의 제약 없이 ‘다양한 도구와 정책 논리’를 통합하고 엄격하게 구조화했다는 점이 핵심이죠.


실제 적용 예시 소개

논문에 실린 ‘Contract Lifecycle Management (CLM)’ 업무용 사례를 살펴볼게요.

  • AI 에이전트가 실시간으로 계약서 초안을 모니터링하면서,
  • 법적 규정, 내부 준수 정책을 분석해 위험 조항을 감지하고,
  • 표준 문구를 제안하며,
  • 서명 권한 유효성 확인부터 최종 승인까지 전 과정을 자동화합니다.

이 전체 플로우는 다양한 함수 호출과 의사결정 논리를 포함한 DAG(흐름 그래프)로 구체화되며, 데이터 생성 파이프라인은 이런 복잡한 작업을 완벽하게 시뮬레이션한 기록을 ‘사람 손 하나 안대고’ 생성해 냅니다.


기존 연구들과의 차별점

연구/프레임워크 특징 SYTHIA와 다른 점
Self-Instruct LLM 자기 지시 기반 ‘명령-응답’ 생성 함수 호출 스키마/검증 없이 자연어 중심
Mind2Web 인간 라벨링 웹사이트 에이전트 행동 기록 수작업 요구, 자동화 한계
AutoGen 다중 에이전트 대화 프레임워크 대화는 가능하지만, 구조화·검증 미흡
ToolCoder API 호출 위한 코드 생성 함수명-인자 세부까지 체크는 하나, 대화미지원
Magpie, UltraFeedback LLM만 이용한 합성 데이터 실행 정확성 확보 및 다중 레벨 데이터 생성 미흡
Berkeley Function-Calling Leaderboard (BFCL) 함수 호출 정량 평가 미세 단위 평가용 데이터 생성에 집중, 큰 플로우 미포함

 

SYTHIA는 위 모든 장점을 흡수하면서, 전 범위 데이터 레벨(멀티태스크 → 멀티턴 → 원자 호출) 생성과 통합 검증을 통해 ‘완전체’ 합성 데이터 파이프라인을 완성했습니다. 이런 전례 없는 스케일과 품질관리는 그 자체로 기술적 가치가 매우 큽니다.


마치며…

이번 논문에서 보여준 SYTHIA 프레임워크는 LLM을 활용한 도구 활용형 AI 에이전트 개발에 있어 데이터를 모으고 가공하는 근본적 문제를 ‘자동합성+엄격검증’ 방식으로 깔끔히 해결했습니다. 실무에 적용하면, 에이전트 학습의 속도와 품질을 끌어올리고, 다양한 도메인과 툴셋에 빠르게 적응할 수 있는 기반 기술이 될 것입니다.

향후에는 추가로 조건부 분기, 다중 에이전트 상호작용, 메모리 유지 기능 확장까지 고려할 수 있어서, 정말 기대되는 연구 방향입니다.

여러분도 도구 사용 에이전트 관련 연구나 서비스를 고민 중이시라면 SYTHIA 같은 프레임워크를 눈여겨 보시면 좋겠습니다!


감사합니다. 이 글이 최신 에이전트 학습 및 합성 데이터 분야에 입문하시는 분께 도움이 되길 바요 :)