안녕하세요! 오늘은 최신 연구 논문인 “SemanticALLI: Caching Reasoning, Not Just Responses, in Agentic Systems”를 풀어드리려고 합니다. 이 논문은 PMG라는 기업의 실전 마케팅 인텔리전스 플랫폼 내 ‘에이전틱 AI(Agentic AI)’ 파이프라인 성능을 크게 향상시킨 흥미로운 기술, 즉 ‘중간 단계 추론 결과를 캐싱한다’는 새로운 패러다임을 제안했습니다.
왜 중간 단계 캐싱이 필요할까요? 기존 접근과의 차이점
여러분, AI 기반 비즈니스 인텔리전스(BI) 시스템은 사용자 명령 한 줄에 대시보드, 차트, 통계 등 다양한 복합 계산 과정을 거쳐 결과를 보여줘야 하죠. 그런데 문제는, 매번 완전히 새롭게 모든 단계를 다시 처리하느라 시간이 어마어마하게 걸린다는 겁니다.
기존에는 모놀리식(monolithic) 캐싱이라고 해서, ‘사용자가 문장을 입력했을 때 그 입력에 대한 최종 답변을 통째로 저장해서 다음 동일한 요청에 바로 응답’하는 방식이 일반적이었습니다. 하지만 이 방식은 다음과 같은 한계가 있어요.
- 사용자 질문이 매우 유사해도 문장 표현이 조금만 달라져도 캐시를 못 타는 경우가 많음
- 같은 의미라도 단어 하나 차이로 캐시에서 완전히 ‘미스’가 난다거나, 비슷하다고 판단해도 내부 비즈니스 용어 차이로 잘못된 결과가 나올 위험
- 즉, '문장 → 답변'을 1대1로 매칭하는 캐시는 반복성이 낮은 자연어 환경에서 효율이 떨어짐
SemanticALLI가 뭔가요? 중간 결과가 캐시되는 이유
논문에선 이를 극복하기 위해 에이전틱 AI 파이프라인 자체를 분해하여 중간 결과를 캐싱하는 방식을 소개합니다.
이 시스템은 크게 두 단계로 나누어 처리해요.
- AIR (Analytic Intent Resolution):
사용자의 입력을 ‘내부적으로 해석 가능한 분석 의도(Intent)’로 변환합니다. 예를 들어 "미디어 채널별 매출과 클릭 수를 보여줘" → {metrics: sales, clicks; dimensions: media_channel; filters: none} 같은 구조적 표현으로 만드는 거죠. - VS (Visualization Synthesis):
AIR에서 나온 분석 의도를 시각화 코드나 차트 명세로 변환합니다. 즉, ‘어떤 차트로 어떻게 그릴지’ 구체적으로 만드는 단계입니다.
그리고 이 두 단계의 중간 산출물을 각각 캐시해둬요. 다시 말해, 문장 자체가 같지 않아도 내부적으로 ‘분석 의도’가 같거나, 시각화 결과가 동일하면 캐시에서 바로 꺼내 쓴다는 뜻입니다.
기술적 가치: 성능과 비용 절감 효과가 얼마나 클까요?
논문 실험을 보면 꽤 극적인 수치가 나옵니다.
- 기존 모놀리식 캐시는 약 38.7%의 재사용률에 그친 데 반해,
- SemanticALLI는 AIR 단계는 38.7%였지만, 더 중요한 VS 단계에서 무려 83.1%를 재사용했습니다.
- VS 캐시 적중 시 평균 응답 대기 시간은 2.66ms에 불과, 즉 거의 즉시 결과를 반환
- 이 덕분에 4,000개 이상의 LLM 호출을 우회했고, 전체 토큰 소비량은 약 78.4%나 감소했어요!
실제로 이 내부 ‘재사용 지점’에 캐시를 두면, 사용자들이 매번 문장을 다르게 말해도 시스템은 자주 반복되는 내부 계산 결과를 빠르게 재활용할 수 있으니, 비용과 시간을 크게 절약할 수 있겠죠?
기존 연구들과 어떤 차별점이 있을까요?
현재 나온 여러 캐싱 연구들은 대부분 입력 문장 자체 혹은 그 임베딩 벡터 유사도만 보고 최종 응답을 캐싱합니다. GPTCache, InstCache 같은 것이 그런 예인데요.
하지만 SemanticALLI는
- 파이프라인 내부를 분해하여 중간 단계 데이터를 캐시하는 ‘내부 캐싱(internal caching)’
- 그리고 이 내부에서도 임베딩 기반 밀집 검색 + 정확도 보장을 위한 BM25 기반 렉시컬(단어 단위) 필터를 혼합한 ‘하이브리드 검색’ 방식을 씁니다.
이 덕분에, 예를 들어 ‘CPC’와 ‘CPM’처럼 근접하지만 엄밀히 구분해야 하는 비즈니스 용어를 잘 구별하여 캐시를 오남용하지 않습니다.
왜 이 연구가 조회수 높을 만한가요?
- 실제 산업 적용 사례: 단순 알고리즘 실험이 아니라, PMG의 실전 마케팅 분석 플랫폼에 적용한 성과라 신뢰감 높아요.
- 사용자 경험 직결: 오래 걸리는 대시보드 생성 속도를 획기적으로 개선하고, 사용자가 인내심을 잃지 않게 하는 실용적인 대안임
- 차별적 접근법: 단순 ‘입력-출력’ 캐싱 넘어 ‘중간 단계 재사용’을 제안, LLM 기반 시스템의 비용과 효율 개선 방안으로 매우 핫한 주제임
- 실험 정량적 수치와 그림 포함: 직관적인 그래프와 꼼꼼한 실험 결과 덕에 기술 이해가 쉬움
마무리하며
최근 LLM 기반 시스템들이 점점 복잡해지고, 멀티-스텝 추론 파이프라인이 늘면서 중간 결과의 ‘재활용 캐싱’은 필수 불가결한 최적화 수단이 되어가고 있습니다. SemanticALLI는 이쪽 분야에 신선한 돌파구를 낸 사례로 볼 수 있죠.
기존에는 ‘빠른 응답 얻으려면 모델을 작게 하거나 캐시로 대체하자’는 접근이 많았는데, 이 논문은 ‘시스템 내부 구조에 맞춰 캐시 전략을 세우면 훨씬 더 큰 개선이 가능하다’는 점을 깨닫게 해줍니다.
지금 바로 여러분의 AI 파이프라인에도 중간 단계 캐싱을 고민해보시면 어떨까요? 기술 진화와 서비스 경쟁력 확보, 두 마리 토끼를 잡는 스마트한 전략이 될 겁니다!
궁금하신 점 있시면 언제든 말씀해 주세요. 감사합니다!