안녕하세요! 오늘은 최근 발표된 ‘PANINI: CONTINUAL LEARNING IN TOKEN SPACE VIA STRUCTURED MEMORY’ 논문을 살펴보면서, 현재 대세인 비슷한 Retrieval-Augmented Generation(RAG) 방식들과 어떤 차별점이 있는지 설명드리겠습니다.
PANINI, 왜 뜨는걸까요? — RAG의 진화 중 하나
요즘 언어 모델들은 질문에 답하기 위해 외부 지식을 꺼내 쓰는 ‘RAG’ 방식을 많이 씁니다. 문서를 쪼개 토큰 단위로 저장했다가, 필요할 때 비슷한 조각들을 꺼내서 답변할 때 참고하는 방식이죠. 그런데 이 방법, 효율성 측면에서 한계가 있습니다. 왜냐하면…
- 검색된 문서 조각들을 매번 동일한 답변 생성 시마다 반복해서 처리하느라 비용이 큽니다. (즉, 읽는 데 시간이 오래 걸리고 컴퓨팅 자원이 많이 듭니다.)
- 문서 단편(chunk) 기반이라 답변에 불필요한 정보가 섞여 '지원되지 않은'(unsupported) 생성, 즉 잘못된 정보가 나올 확률이 높아집니다.
PANINI는 이러한 문제점들을 꽤 재밌는 방식으로 해결합니다.
PANINI의 핵심 아이디어 : GSW + RICR
1) Generative Semantic Workspace (GSW) — 구조화된 기억
PANINI는 문서 전체를 단순 조각(chunk)으로 저장하는 대신, 아래와 같이 ▲개체(entity), ▲동작/사건(verb-phrase), ▲질문-답변(QA) 쌍으로 연결된 네트워크 형태의 구조화된 기억(GSW)으로 ‘정리’합니다.
예를 들면 "오바마는 1961년 8월 4일 하와이에서 태어났다"는 아래처럼 표시됩니다:
- 개체 노드: Barack Obama, August 4, 1961, Honolulu, Hawaii
- 동작/사건 노드: “태어났다”
- QA 쌍: "오바마는 언제 태어났나요?" → "1961년 8월 4일" 식으로 질의응답 관계가 만들어 집니다.
이렇게 바뀌면…
- 정보가 더 명확한 단위로 쪼개지고, 중요한 관계와 역할이 명시됩니다.
- 따라서 LLM이 쓸데없는 텍스트 노이즈 없이 핵심 사실과 그 연결고리를 뽑아내기 좋아지죠.
2) Reasoning Inference Chain Retrieval (RICR) — 체인 기반 추론형 검색
PANINI는 질문을 먼저 분해해 단순한 하위 질문으로 나누고, 이 Q&A 네트워크를 따라가면서 추론체인(증거사슬)을 만듭니다.
예를 들어 "로테어 2세의 어머니가 언제 사망했나요?" 라는 질문은…
- (1) “로테어 2세의 어머니는 누구인가요?”
- (2) “그 인물이 언제 사망했나요?”
이렇게 쪼갭니다.
그다음 RICR은 GSW 내에서 (1)의 답을 찾고, 그 답으로 (2)를 이어나가는 방식입니다. 빔 서치로 여러 후보 경로를 병렬 탐색하면서 최적 체인을 찾아 답변의 신뢰성을 높여 줍니다.
PANINI는 기존 연구와 이렇게 달라요!
| 특징 | 기존 RAG(예: BM25, Dense Retrieval) | PANINI (GSW+RICR) |
| 문서 형태 | 조각(Fragmented chunks) | 구조화된 Q&A 네트워크 (GSW) |
| 검색 방식 | 단일 단계 유사도 검색 | 다단계 체인형 증거 추론 (Beam Search) |
| 중복 추론 | 동일 텍스트 반복 검토 | 한번 구조화된 기억에서 직접 추론 |
| 호가신뢰성 | 낮음 (노이즈 섞임, 과잉생성) | 높음 (체인 기반 점수화, 불확실 시 답변 보류) |
| 토큰 비용 | 많음 (2~30배) | 적음 (증거만 간결 제공) |
| 효율성 | 낮음, 검색마다 고비용 | 높음, 읽기 시간 크게 감소 |
이 중 특히 눈에 띄는 점은 PANINI의 ‘쓰기 시(write time)에 구조화’해서 읽기 시(read time)에 효율적으로 탐색한다는 점입니다. 이는 최근 주목받는 ‘sleep-time compute(잠자는 동안 연산 하기)’ 논리와 맞닿아 있으면서, 단순 요약과 달리 복잡한 추론 체인을 지원한답니다.
실험 결과, 기술적 성과 어땠을까요?
- 6개 QA 벤치마크 테스트에서 평균 5~7% 높은 성능을 내면서,
- 답변 생성에 쓰는 토큰은 기존 대비 2~30배 적어 비용 절감!
- 모호하거나 증거가 부족한 질문엔 'N/A'로 정확히 거절해, 허위정보 생성도 줄임.
- 완전 오픈소스 파이프라인 지원: 자체 GSW 생성부터 답변 모델까지 전부 공개된 모델로 구현 가능.
- 기존의 ‘에이전트형’(multi-step retrieval) 시스템보다 훨씬 빠르면서도 높은 신뢰도를 달성!
왜 이런 기술 가치가 중요한가요?
기존 RAG 시스템은 대규모 LLM이 문서 쪼갠 조각들을 반복 처리하며 추론해 비효율적일 뿐만 아니라, 사실 아닌 정보까지 생성하는 ‘헛발질’(hallucination) 확률이 높습니다. PANINI는…
- ‘구조화된 인지기억’을 만들어 중요한 관계 위주로 핵심만 뽑아내고,
- 질문을 여러 단계로 쪼개 각 단계의 증거를 차근차근 검증하면서 불확실 부분에서 경고하거나 답변 거절함으로써 신뢰성을 크게 끌어올렸죠.
이렇게 메모리 구조를 똑똑하게 짜두면, 진짜 중요한 정보만 쓸 수 있어서 독해 속도도 빨라지고, 오류도 줄고, 전체 시스템 비용도 줄어드는 ‘일석삼조’ 효과를 얻을 수 있다는 게 핵심입니다.
끝으로, 제 리뷰 팁!
- 기존 논문과는 “어떻게 메모리를 구성하느냐(조각 텍스트 vs 구조화 네트워크)”와 “어떻게 검색하느냐(동시 다중 경로 추적 vs 한방 검색)” 방식에 큰 차이가 있습니다.
- PANINI는 병렬 빔 서치로 중간 단계마다 증거를 걸러내 탐색 효율성과 신뢰도를 함께 잡았습니다.
- 여러분이 만약 RAG 시스템을 쓰고 있다면, PANINI처럼 메모리 구조를 정리하고 검색을 체인 기반으로 관리하는 아이디어를 접목해 보시면 큰 성능 향상과 비용 절감 효과를 기대해볼 수 있습니다.
이상으로, PANINI 논문을 통해 본 ‘비정형 텍스트를 어떻게 효율적이고 신뢰성 높은 기억 구조로 바꿔 활용할 수 있을까’에 대해 요약해드렸습니다. 관심 있는 분들은 공개된 GitHub 코드도 꼭 한 번 체크해 보시면 좋아요!
읽어주셔서 감사합니다! 질문 있으시면 언제든 댓글로 환영합니다. 😊
참고 링크
- 논문 원문: https://arxiv.org/abs/2602.15156
- 주요 용어 정리: RAG, GSW, RICR
- 오픈소스 코드: https://github.com/roychowdhuryresearch/gsw-memory
'AI' 카테고리의 다른 글
| 경로 인지와 도구 조합으로 분자·병리 데이터 통합해 의료 AI 신뢰성·효율성 혁신한 LAMMI-Pathology (0) | 2026.02.25 |
|---|---|
| OMAD: 분산 Diffusion 정책과 변분 엔트로피로 온라인 다중 에이전트 강화학습의 새 지평을 열다 (0) | 2026.02.24 |
| LLM과 GraphRAG가 자동화하는 미래의 사이버-물리 시스템 설계 구조 매트릭스 혁신 (1) | 2026.02.21 |
| 작은 AI가 ‘말 잘 듣고’ 스스로 진화한다: 자연어 피드백으로 대형 모델 성능 쫓는 혁신적 다중 턴 학습법 (1) | 2026.02.20 |
| AI 연구 자동화의 첫걸음: ResearchGym이 실증한 실제 논문 완전 사이클 평가와 GPT-5 에이전트의 실패와 가능성 (0) | 2026.02.19 |