비용과 복잡성 잡는 IBM의 STRIDE: AI 업무에 맞는 ‘에이전트 vs LLM’ 선택을 체계적으로 결정하는 혁신 프레임워크

안녕하세요! 오늘은 IBM 연구진이 발표한 최신 논문 ‘STRIDE: A SYSTEMATIC FRAMEWORK FOR SELECTING AI MODALITIES—AGENTIC AI, AI ASSISTANTS, OR LLM CALLS’를 풀어드리려고 합니다.

STRIDE가 제안하는 ‘누가 언제 에이전트 AI를 써야 하나?’ 문제

최근 AI 분야가 크게 발전하며, 단순히 대형 언어모델(LLM)을 호출하는 수준에서 ‘자율적 에이전트(Agentic AI)’를 활용한 복잡한 업무 자동화가 활발해졌는데요. 문제는 이렇게 ‘에이전트 AI’를 무조건 쓰면 비용 폭탄, 복잡성 증가, 보안 위험까지 수반된다는 점입니다.

그래서 IBM 연구팀은 이렇게 질문했습니다.

“과연 해당 작업에 에이전트 AI가 꼭 필요한가? 때로는 그냥 LLM 호출이나 AI 어시스턴트(중간 단계)면 충분하지 않을까?”

STRIDE(스트라이드)는 바로 이 지점을 체계적이고 수치적으로 판단해주는 프레임워크입니다.

STRIDE 핵심: 3가지 AI 모달리티 구분과 선택 기준

논문에서 정의한 AI 모달리티는 3가지입니다.

모달리티	특징	적합한 상황 예시
1) LLM Call	단발성 질의응답, 상태 없음	환율 조회, 간단 정보 검색
2) AI Assistant	가이드 되는 다단계 작업, 제한적 도구접근	회의 요약, 할 일 정리
3) Agentic AI	완전 자율, 기억 지속, 도구 다중 조합	5일 여행 일정 계획, 쿠버네티스 사고 대응

STRIDE는 주어진 작업을 분석해 “이 작업에 가장 적합한 AI 모달리티는 무엇인가?”를 객관적으로 점수(Agentic Suitability Score, ASS)로 산출해 추천합니다.

STRIDE의 기술적 차별점과 가치

1) ‘Task Decomposition’ - 작업을 DAG 형태로 쪼개고 관계를 명확히

기존 연구들은 작업 복잡성을 손대긴 했지만, STRIDE는 아예 LLM에게 명령해 ‘작업을 의미 있는 작은 작업 단위(subtasks)로 분할’하고, 이들의 의존성(순서, 데이터 흐름)을 포착합니다.

예를 들면 “5일 여행 일정 계획” 요청을 ‘항공권 검색’, ‘호텔 찾기’, ‘예산 계획’ 같은 서브태스크로 깔끔히 나누죠. 이런 세밀한 분해 덕분에, 단순 조회부터 복잡 계획까지 한 프레임워크에서 관리할 수 있습니다.

2) ‘Dynamic Reasoning & Tool Assessment’ - 심층적 사고와 도구 연계 정도 측정

STRIDE는 각 서브태스크별로

얼마나 깊은 사고가 필요한가 (간단 조회/중간 추론/복잡 의사결정)
도구(툴) 활용 정도 (없음/단일/다중)
일정한 맥락 유지 여부 (무상태/일시적/영속적)
그리고 리스크(비용, 무한루프 위험 등)

를 종합해 ‘Agentic Suitability Score’를 산출합니다.

기존 논문들은 가중치나 점수를 쓰긴 했지만, STRIDE는 이걸 각 업무 도메인별로 맞춤형 가중치로 조절, 강화학습과 전문가 피드백까지 활용해 지속적으로 개선하는 점이 독특합니다.

3) ‘Dynamism Attribution’ - 변동성 원인을 정확히 가려낸다

“작업이 동적인가?” 판단이 관건인데, 단순히 결과가 매번 달라진다고 해서 에이전트가 필요한 건 아닙니다.

STRIDE는 변동성을 세 가지로 구분합니다.

모델 자체의 무작위성 (LLM의 확률적 출력)
외부 도구의 불안정성 (API 다운, 응답 변화)
그리고 워크플로우 변동성 (조건문, 환경 변화 등)

이 중 마지막 ‘워크플로우 변동성’에만 높은 점수를 주어 ‘에이전트’가 정말 필요한 경우만 골라내죠. 이 덕분에 ‘랜덤 인사말 생성’ 같은 단순 변동 작업에 에이전트를 낭비하지 않습니다.

4) ‘Self-Reflection Assessment’ - 실행 중간 평가와 오류 복구 필요성 판단

사실 에이전트 AI의 꽃은 ‘스스로 피드백 반영’하는 능력입니다. STRIDE는 작업 중간에 의사결정이 필요한지, 도구가 불확실한지, 오류 복구가 필요한지 여부를 판단해, 자율성이 필요한 작업에만 반영합니다.

기존 연구들은 자기반성을 성능 개선 차원에서 다뤘지만, STRIDE는 이걸 ‘예산 배분’과 ‘모달리티 선택’의 결정적 요소로 끌어올렸습니다.

5) ‘Intelligent Recommendation Engine’ - 역사 기반 학습과 사용자 맞춤 설명 제공

서브태스크별 점수들을 모아 전체 작업 프로필을 만들고, 과거 유사 업무 데이터베이스를 참고해 최종 모달리티를 추천합니다.

뿐만 아니라 개발자, 관리자 등 사용자 유형에 맞춰 추천 근거, 도구 설정 등 세밀한 설명도 내놓아 이해도를 높였습니다.

실제 적용 결과와 기존 연구와의 차이점

30가지 실제 엔터프라이즈 업무(SRE, 컴플라이언스 등)에서 92% 정확도, 불필요한 에이전트 배포 45% 절감, 비용 37% 감축
에이전트를 무조건 쓰는 ‘Naive Agent’나 단순 기준만 쓰는 ‘Heuristic Threshold’ 기법 대비 압도적 우위
도메인 전문가 78% ‘전폭 동의’와 27% 전문가 평가 향상

기존 AgentBench, SWE-Bench 등은 에이전트 ‘성능 평가용 벤치마크’를 제공하는 데 그쳤다면, STRIDE는 “설계 단계에서 에이전트 필요성을’ 판단하는 최초의 체계적 메커니즘으로, ‘과잉 설계’라는 심각한 산업적 문제를 직접 해결합니다.

요약하며 – 왜 STRIDE에 주목해야 할까?

돈과 리소스 아낍니다: 비용이 높은 에이전트 AI를 꼭 필요한 작업에만 배치해 불필요한 컴퓨팅, API 호출 최소화
업무 자동화 품질 높입니다: 적절한 모달리티가 선택돼 오류와 보안 위험 감소, 가독성 높은 결과 제공
기업 실무에 바로 적용 가능: 설계 초기에 의사결정을 내림으로써 전체 AI 구축 과정 효율화, 전문가 피드백으로 꾸준히 고도화 중
기존 연구 대비 실용적 관점 강화: 성능 측정보다 ‘배치 전 필수 판단’, ‘실제 작업 도메인에 초점’, ‘설명 가능성 및 적용 용이성’에 혁신적 기여

마무리

STRIDE는 AI 솔루션 설계에서 ‘에이전트 과잉사용’이라는 함정을 피해, AI 도입의 효율성과 안전성을 극대화하는 선구적인 프레임워크입니다.

앞으로 멀티모달·대규모 기업 적용 확장 계획도 있어, AI 책임감과 경제성이라는 두 마리 토끼를 잡는 신기술로 기대됩니다.

읽어주셔서 감사합니다! AI 시스템 구축 고민하신다면 STRIDE 논문(https://arxiv.org/abs/2512.02228) 꼭 참고해 보세요. 궁금하신 점 있으시면 언제든 질문 주세요~ 좋은 하루 되세요! 😊

'AI' 카테고리의 다른 글

GENIUS: 지식 그래프와 계층형 AI가 실시간 오류복구로 DFT 시뮬레이션의 자동설정 한계를 넘다 (1)	2025.12.10
ChipMind: AI가 수십만 토큰 칩 설계문서도 ‘의도 이해’하며 뚫은 비밀, 도메인 특화 지식그래프와 적응형 검색의 혁신 (0)	2025.12.09
실시간 환경 인지로 AI가 ‘어떻게 할지’ 직접 배우는 PRAXIS: 웹 자동화 속 절차 학습의 혁신 (0)	2025.12.02
스스로 적응하는 AI 워크플로우 혁신: A2Flow의 자동 추상 연산자 생성과 탐색으로 LLM 작업 최적화 (1)	2025.11.28
M3-Bench: 복잡한 멀티모달-멀티홉-멀티스레드 도구 사용 AI의 성능과 한계를 새롭게 조명하다 (0)	2025.11.27