안녕하세요! 오늘은 최근 주목받는 AI 에이전트 연구 논문 하나를 소개해드리려고 합니다. 바로 “REAL-TIME PROCEDURAL LEARNING FROM EXPERIENCE FOR AI AGENTS”라는 논문인데요. AI 에이전트가 실시간으로 ‘절차(procedure)’를 학습하도록 설계한 PRAXIS라는 시스템을 제안한 내용입니다. 지금까지 LLM(대형언어모델) 기반 에이전트들은 사실관계(facts) 위주의 학습은 어느 정도 잘했지만, 실제 행동의 연속인 절차적인 학습은 부족했던 한계를 어떻게 뛰어넘었는지 살펴보겠습니다.
1. 무엇이 새로울까요? – 기존 논문들과의 차별점
기존 연구들을 보면 ‘기억(memory)’을 이용해 AI가 정보(주로 사용자 선호나 사실)를 지속해서 학습하고 호출하는 방식은 활발히 연구돼왔습니다. 예를 들어, Mem0이나 Letta 같은 시스템은 장기 기억을 구축해 사용자 정보나 대화 내용을 보존하고, 필요할 때 꺼내 씁니다. Reflexion, Self-Refine 같은 연구는 AI가 자신의 출력을 계속 복기하며 점진 개량하는 ‘자기 성장’도 시도했습니다.
하지만 이런 연구들이 주로 사실 기반, 텍스트 위주의 ‘대화’ 환경에 초점을 맞춘 반면, 이번 논문은
- ‘절차(procedure)’를 실시간으로 학습하며,
- 복잡한 시각적/환경적 상태(stateful visual environment), 구체적으론 웹 브라우저 상의 동작을 다루고,
- ‘상태 의존적 메모리(state-dependent memory)’라는 개념으로 경험을 저장·검색하여 상황 맞춤형 행동을 유도
했다는 점에서 기술적으로 매우 신선합니다.
2. PRAXIS의 핵심 아이디어 – ‘상태 의존적 기억’
논문 이름에 등장하는 PRAXIS란?
Procedural Recall for Agents with eXperiences Indexed by State
즉, 경험을 ‘환경 상태’와 ‘내부 상태(목표 등)’에 기반해 인덱싱해서 기억장치에 저장하고, 현재 상태와 비슷할 때 해당 기억을 끌어와 의사결정에 활용하는 방식입니다.
구체적으로는:
- 환경상태(웹페이지 구조, 화면정보)
- 에이전트 내부 상태(목표, 진행상황)
- 행동(action)
- 행동 후 환경 상태
이 4가지 정보 쌍을 ‘경험 단위’로 저장합니다.
그리고 현재 환경과 내부 상태를 기준으로 유사도를 구해서 가장 관련성 높은 기억을 꺼내 ‘이번엔 이런 상황에 이렇게 했었지?’ 하며 행동 선택에 참고하는 방식이에요.
이런 구조는 인간이 ‘기분이나 장소가 같을 때 더 잘 기억하는’ 심리학 ‘상태 의존적 기억(state-dependent memory)’에서 영감을 얻었습니다.
3. 실제 성능은 어땠을까요?
논문에서는 AI 에이전트 ‘Altrina’를 REAL이라는 웹자동화 벤치마크에서 테스트했는데요.
- 정확도(성공률)는 기존 대비 약 40.3% → 44.1%로 4%포인트 상승
- 여러 번 시도(best-of-5) 성공률도 53.7% → 55.7%로 향상
- 안정성(재현성)도 74.5% → 79.0%로 개선돼, 같은 과제를 반복해도 더 일관되게 성공
- 효율성 측면에선 평균 단계 수가 25.2 → 20.2로 약 20% 줄어, 더 빠르게 목적 달성
특히 눈에 띄는 점은, 환경 상태와 내부 목표를 동시에 고려해 기억을 검색함으로써 잡음/stochasticity가 큰 대형 모델의 무작위성에서 오는 실패 위험성을 줄인 점입니다.
4. 기술적 가치와 전망
① 실시간 ‘절차 학습’ 구현
대부분 AI 모델은 사전 학습 후 고정된 지식을 기반으로 행동합니다. 하지만 세상은 계속 바뀌고, 절차도 수시로 달라지죠. PRAXIS는 ‘새로운 절차’를 직접 경험을 통해 실시간으로 기억하고 활용함으로써, 사람처럼 시행착오에서 배우는 모습을 구현했습니다. 기존 장기 메모리 연구들이 ‘사실’을 기억하는 데 초점이었다면, ‘어떤 상황에서 어떤 행동이 성공했는지’라는 절차적인 경험을 기억하는 건 훨씬 응용 가치가 큽니다.
② 웹 환경에 특화해 ‘상태’ 정보를 적극 활용
웹은 사용 사례가 무궁무진하고, UI도 자주 바뀌기 때문에 ‘절차 자동화 AI’에게는 까다로운 환경입니다. PRAXIS는 시각 정보와 DOM(웹 페이지 구조)을 모두 활용해 세밀하게 상태를 정의하고, 내부 목표까지 반영해 ‘정확히 지금 이 상황에서 맞는 경험’을 끄집어 냅니다. 이 접근법은 ‘단순 텍스트 기반 메모리’와 달리, 복잡한 시각적 환경에 적극 대응 가능하다는 점에서 차별화됩니다.
③ 범용성 있는 설계
논문에서도 미래 연구 방향으로 웹을 넘어 일반 컴퓨터 활용 환경 전반에 적용 가능하다고 제안하고 있어요. 즉, 브라우저 외에도 소프트웨어 UI 자동화, 로봇 조작, 심지어 게임 AI에서도 ‘상태-행동-결과’ 기억 체계를 적용해 점진 학습, 맞춤형 AI가 될 수 있습니다.
5. 왜 요즘 뜨는 AI 기술에도 ‘절차 학습’이 중요할까요?
최근 GPT-4나 Gemini 같은 초대형 모델들이 대화 수준을 뛰어넘어 실제 업무용 에이전트로 주목받고 있죠. 다만 이 모델들은 ‘지식’은 풍부하지만 ‘어떻게 일이 진행되는지’(절차)를 실시간 익히는 능력이 매우 약했습니다. 사람이 상황별로 미묘하게 다른 절차에 적응해가며 일하는 것과 달리, 모델은 정해진 작업만 반복하거나 아예 실패하는 때가 많습니.
PRAXIS는 그 한계에 종지부를 찍을 수 있는 새로운 시도입니다. ‘실시간 시행착오 학습’을 가능케 하면서, 개별 사용자 및 환경 맞춤형 AI를 구현할 수 있어 산업 현장과 일상생활에서 AI 확산을 앞당길 핵심 기술이라 봅니다.
마무리: PRAXIS, AI 에이전트 ‘학습하는 절차’를 향한 큰 걸음
오늘 소개한 논문은 AI 에이전트가 ‘환경과 목표에 맞게 과거 행동 경험’을 기억해 실시간 절차학습을 한다는 점에서 저장-추론 구조의 혁신을 보여주고 있습니다. 기존 메모리 확장은 ‘언젠가 본 사실’ 저장이었다면, PRAXIS는 ‘어떤 상황에 어떻게 행동해야 하는지’ 경험을 저장함으로써 진짜 ‘지능적인 학습’을 구현해 냈어요.
앞으로 웹 자동화뿐 아니라, 맞춤형 AI 비서, 로봇 조작 등 다양한 분야에서 활용 가능성이 매우 클 것으로 기대됩니다.
더 궁금하신 분들은 원문을 꼭 한 번 읽어보시길 추천드리고, AI 에이전트 기술의 미래를 함께 지켜봐주세요!
참조 논문:
Dasheng Bidbi et al., “Real-Time Procedural Learning from Experience for AI Agents”, 2025:
https://arxiv.org/abs/2511.22074
감사합니다! 다음에 또 흥미로운 AI 논문으로 찾아뵙겠습니다 :)
'AI' 카테고리의 다른 글
| ChipMind: AI가 수십만 토큰 칩 설계문서도 ‘의도 이해’하며 뚫은 비밀, 도메인 특화 지식그래프와 적응형 검색의 혁신 (0) | 2025.12.09 |
|---|---|
| 비용과 복잡성 잡는 IBM의 STRIDE: AI 업무에 맞는 ‘에이전트 vs LLM’ 선택을 체계적으로 결정하는 혁신 프레임워크 (0) | 2025.12.04 |
| 스스로 적응하는 AI 워크플로우 혁신: A2Flow의 자동 추상 연산자 생성과 탐색으로 LLM 작업 최적화 (1) | 2025.11.28 |
| M3-Bench: 복잡한 멀티모달-멀티홉-멀티스레드 도구 사용 AI의 성능과 한계를 새롭게 조명하다 (0) | 2025.11.27 |
| 대형 언어모델의 ‘절차적 추론’은 환상? FSM 시험지로 드러난 장기 계산력 한계와 실용적 돌파구 (0) | 2025.11.22 |