본문 바로가기

AI

PANINI: 구조화된 기억과 체인 추론으로 RAG의 효율과 신뢰성을 30배 이상 끌어올리다

안녕하세요! 오늘은 최근 발표된 ‘PANINI: CONTINUAL LEARNING IN TOKEN SPACE VIA STRUCTURED MEMORY’ 논문을 살펴보면서, 현재 대세인 비슷한 Retrieval-Augmented Generation(RAG) 방식들과 어떤 차별점이 있는지 설명드리겠습니다.


PANINI, 왜 뜨는걸까요? — RAG의 진화 중 하나

요즘 언어 모델들은 질문에 답하기 위해 외부 지식을 꺼내 쓰는 ‘RAG’ 방식을 많이 씁니다. 문서를 쪼개 토큰 단위로 저장했다가, 필요할 때 비슷한 조각들을 꺼내서 답변할 때 참고하는 방식이죠. 그런데 이 방법, 효율성 측면에서 한계가 있습니다. 왜냐하면…

  • 검색된 문서 조각들을 매번 동일한 답변 생성 시마다 반복해서 처리하느라 비용이 큽니다. (즉, 읽는 데 시간이 오래 걸리고 컴퓨팅 자원이 많이 듭니다.)
  • 문서 단편(chunk) 기반이라 답변에 불필요한 정보가 섞여 '지원되지 않은'(unsupported) 생성, 즉 잘못된 정보가 나올 확률이 높아집니다.

PANINI는 이러한 문제점들을 꽤 재밌는 방식으로 해결합니다.


PANINI의 핵심 아이디어 : GSW + RICR

1) Generative Semantic Workspace (GSW) — 구조화된 기억

PANINI는 문서 전체를 단순 조각(chunk)으로 저장하는 대신, 아래와 같이 ▲개체(entity), ▲동작/사건(verb-phrase), ▲질문-답변(QA) 쌍으로 연결된 네트워크 형태의 구조화된 기억(GSW)으로 ‘정리’합니다.

 

예를 들면 "오바마는 1961년 8월 4일 하와이에서 태어났다"는 아래처럼 표시됩니다:

  • 개체 노드: Barack Obama, August 4, 1961, Honolulu, Hawaii
  • 동작/사건 노드: “태어났다”
  • QA 쌍: "오바마는 언제 태어났나요?" → "1961년 8월 4일" 식으로 질의응답 관계가 만들어 집니다.

이렇게 바뀌면…

  • 정보가 더 명확한 단위로 쪼개지고, 중요한 관계와 역할이 명시됩니다.
  • 따라서 LLM이 쓸데없는 텍스트 노이즈 없이 핵심 사실과 그 연결고리를 뽑아내기 좋아지죠.

2) Reasoning Inference Chain Retrieval (RICR) — 체인 기반 추론형 검색

PANINI는 질문을 먼저 분해해 단순한 하위 질문으로 나누고, 이 Q&A 네트워크를 따라가면서 추론체인(증거사슬)을 만듭니다.

예를 들어 "로테어 2세의 어머니가 언제 사망했나요?" 라는 질문은…

  • (1) “로테어 2세의 어머니는 누구인가요?”
  • (2) “그 인물이 언제 사망했나요?”

이렇게 쪼갭니다.

 

그다음 RICR은 GSW 내에서 (1)의 답을 찾고, 그 답으로 (2)를 이어나가는 방식입니다. 빔 서치로 여러 후보 경로를 병렬 탐색하면서 최적 체인을 찾아 답변의 신뢰성을 높여 줍니다.


PANINI는 기존 연구와 이렇게 달라요!

특징 기존 RAG(예: BM25, Dense Retrieval) PANINI (GSW+RICR)
문서 형태 조각(Fragmented chunks) 구조화된 Q&A 네트워크 (GSW)
검색 방식 단일 단계 유사도 검색 다단계 체인형 증거 추론 (Beam Search)
중복 추론 동일 텍스트 반복 검토 한번 구조화된 기억에서 직접 추론
호가신뢰성 낮음 (노이즈 섞임, 과잉생성) 높음 (체인 기반 점수화, 불확실 시 답변 보류)
토큰 비용 많음 (2~30배) 적음 (증거만 간결 제공)
효율성 낮음, 검색마다 고비용 높음, 읽기 시간 크게 감소

 

이 중 특히 눈에 띄는 점은 PANINI의 ‘쓰기 시(write time)에 구조화’해서 읽기 시(read time)에 효율적으로 탐색한다는 점입니다. 이는 최근 주목받는 ‘sleep-time compute(잠자는 동안 연산 하기)’ 논리와 맞닿아 있으면서, 단순 요약과 달리 복잡한 추론 체인을 지원한답니다.


실험 결과, 기술적 성과 어땠을까요?

  • 6개 QA 벤치마크 테스트에서 평균 5~7% 높은 성능을 내면서,
  • 답변 생성에 쓰는 토큰은 기존 대비 2~30배 적어 비용 절감!
  • 모호하거나 증거가 부족한 질문엔 'N/A'로 정확히 거절해, 허위정보 생성도 줄임.
  • 완전 오픈소스 파이프라인 지원: 자체 GSW 생성부터 답변 모델까지 전부 공개된 모델로 구현 가능.
  • 기존의 ‘에이전트형’(multi-step retrieval) 시스템보다 훨씬 빠르면서도 높은 신뢰도를 달성!

왜 이런 기술 가치가 중요한가요?

기존 RAG 시스템은 대규모 LLM이 문서 쪼갠 조각들을 반복 처리하며 추론해 비효율적일 뿐만 아니라, 사실 아닌 정보까지 생성하는 ‘헛발질’(hallucination) 확률이 높습니다. PANINI는…

  • ‘구조화된 인지기억’을 만들어 중요한 관계 위주로 핵심만 뽑아내고,
  • 질문을 여러 단계로 쪼개 각 단계의 증거를 차근차근 검증하면서 불확실 부분에서 경고하거나 답변 거절함으로써 신뢰성을 크게 끌어올렸죠.

이렇게 메모리 구조를 똑똑하게 짜두면, 진짜 중요한 정보만 쓸 수 있어서 독해 속도도 빨라지고, 오류도 줄고, 전체 시스템 비용도 줄어드는 ‘일석삼조’ 효과를 얻을 수 있다는 게 핵심입니다.


끝으로, 제 리뷰 팁!

  • 기존 논문과는 “어떻게 메모리를 구성하느냐(조각 텍스트 vs 구조화 네트워크)”와 “어떻게 검색하느냐(동시 다중 경로 추적 vs 한방 검색)” 방식에 큰 차이가 있습니다.
  • PANINI는 병렬 빔 서치로 중간 단계마다 증거를 걸러내 탐색 효율성과 신뢰도를 함께 잡았습니다.
  • 여러분이 만약 RAG 시스템을 쓰고 있다면, PANINI처럼 메모리 구조를 정리하고 검색을 체인 기반으로 관리하는 아이디어를 접목해 보시면 큰 성능 향상과 비용 절감 효과를 기대해볼 수 있습니다.

이상으로, PANINI 논문을 통해 본 ‘비정형 텍스트를 어떻게 효율적이고 신뢰성 높은 기억 구조로 바꿔 활용할 수 있을까’에 대해 요약해드렸습니다. 관심 있는 분들은 공개된 GitHub 코드도 꼭 한 번 체크해 보시면 좋아요!

읽어주셔서 감사합니다! 질문 있으시면 언제든 댓글로 환영합니다. 😊


참고 링크