의료 AI 혁신의 새 기준, QuarkMed: 권위 데이터·다단계 RL·RAG 결합으로 정확성과 신뢰성 모두 잡다

안녕하세요! 오늘은 최신 의료 AI 분야에서 큰 주목을 받고 있는 ‘QuarkMed Medical Foundation Model’ 논문을 기존 연구들과의 차이점을 중심으로 살펴보겠습니다.

QuarkMed: 의료 AI의 새 지평을 열다

최근 대형 언어 모델(LLM)이 의료 영역에 도입되면서, 진단, 상담, 맞춤형 치료 지원 등 다양한 분야에서 혁신적인 변화가 일어나고 있죠. 하지만 의료 분야는 일반적인 자연어 처리를 넘어서 ‘전문성’, ‘정확성’, ‘안전성’이 필수라서, 단순히 범용 모델을 쓰는 것만으론 부족했습니다. QuarkMed는 이런 한계를 뛰어넘기 위해 만들어진 320억 파라미터 규모의 의료 특화 파운데이션 모델입니다.

QuarkMed가 주목받는 이유: 기술적 핵심 포인트

광범위하면서도 고품질의 의료 데이터 파이프라인기존 BioBERT, ClinicalBERT 등의 모델은 단순히 특정 데이터셋에 초점을 맞췄다면, QuarkMed는 ‘지식 포괄성(coverage)’과 ‘품질(quality)’을 함께 잡아 의료 전문성과 범용성을 동시에 강화한 것이 차별점입니다.
QuarkMed는 의료 교과서, 임상 가이드라인, 근거 중심의 논문, 약물 설명서 등 1조 토큰이 넘는 방대한 의료 데이터를 활용합니다. 특히 ‘전문성’ 확보를 위해 전문가가 직접 데이터의 권위 수준을 평가하고, 부족한 개념을 보완하는 ‘지식 합성’도 수행했는데요.
구조화된 의료 지식을 자연어로 변환, 정량적 통합BioGPT 같은 모델이 주로 전문 문헌 텍스트 기반이라면, QuarkMed는 구조화 지식 통합에 좀 더 공을 들였다는 점에서 차별화됩니다.
의료 정보는 표(knowledge graph)나 코드(ICD9/10 등) 형태의 데이터가 많잖아요? 이런 데이터를 바로 LLM에 넣기 어렵기에, QuarkMed는 SPO 트리플(주어-술어-목적어)을 자연어 문장으로 번역해 모델이 더 잘 이해하고 활용하도록 했습니다. 이 과정의 품질을 위해 ‘백번역(back-translation)’과 엄격한 필터링 절차를 거쳤죠.
의료 특화 다단계 학습 전략: IFT, SFT, RL
- Instruction Fine-Tuning (IFT): 의료 업무별 ‘능력-문제 중심’ 태스크를 40만 건 이상 고품질 데이터로 학습시켜. 단순 답변 생성이 아니라, ‘문맥 파악’, ‘논리적 생성’, ‘지식 적용’, ‘추론’ 등 4개 능력을 체계적으로 키웠어요.
- Supervised Fine-Tuning (SFT): 실제 의료 상담과 온라인 질의응답 데이터를 혼합해, 현실적인 어려운 문제와 혼돈에 강한 모델을 만들었습니다. 전문가가 엄격히 검증하는 과정도 눈에 띕니다.
- Reinforcement Learning (RL): ‘정확한 진단 및 약물 처방’과 같은 고난도 분야에 집중했습니다. 특히 ‘확실히 검증 가능한 보상(Verifiable Reward)’과 ‘그룹 상대적 정책 최적화(GRPO)’ 방식을 적용해 RL 훈련의 안정성과 효율을 끌어올렸죠.
이 부분은 기존 Med-PaLM 같은 모델들이 대부분 단일 또는 단순 RLHF 방식으로 튜닝한 것과 달리, QuarkMed는 의료 특화 핵심 영역별로 RL 보상함수를 엄격히 설계, 다단계로 분리해 최적화한 점이 크게 돋보입니다.
최신 Retrieval-Augmented Generation(RAG) 기술 접목오픈소스 의료 LLM들이 주로 내부 파라미터 의존형인데, QuarkMed는 RAG를 핵심 신뢰성 레이어로 두었다는 점에서 차별적입니다.
QuarkMed는 의료 지식 베이스와 검색결과를 참조하는 RAG를 결합해, 단순 암기가 아닌 ‘최신 의료지식 반영’과 ‘오답(환각) 감소’를 구현했습니다. 덕분에 특정 처방 변경, 희귀 질환 등 최신 정보 반영력이 강화됐습니다.

기존 의료 AI 모델들과 뚜렷한 차이점

모델명 데이터 소스와 품질 학습 방법 보상 설계 최신 지식 반영

BioBERT	주로 대규모 바이오 논문	단순 사전학습 & 미세조정	없음	RAG 미적용
GatorTron	EHR 임상텍스트 중심	스케일 업 중심 사전학습	없음	RAG 미적용
Med-PaLM	의료시험 문제 데이터	RLHF 방식	단일 보상 기반	제한적 최신성
QuarkMed	대규모 권위 의료데이터, 구조/비구조 혼합	IFT+SFT+다단계 RL (GRPO)	하이브리드 룰+모델 기반, 다차원 보상	고도화된 RAG 통합

평가 성적도 짱짱!

중국 의료자격시험 문제 70% 정확도 달성 (상대적으로 크기 대비 높은 성과)
MedXpertQA, DiagnosisArena 등 복잡한 추론 및 진단 벤치마크에서 기존 주요 공개 모델들 대비 안정적 우수성 입증
안전성, 신뢰성, 사실성 모두 고려해 학습한 덕에 부적절 답변 최소화

기술적으로 배울 점과 앞으로 과제

‘구조화 의료 지식 → 자연어 변환’이 LLM 전문성 향상에 결정적 역할을 한다는 점에서, 의료 AI 데이터 준비의 새로운 방향을 제시.
Multi-Stage RL과 정량적 보상 설계 덕에 의료 영역의 복잡한 판단 능력 향상 가능.
RAG 결합으로 실시간 최신 정보 제공과 위조 정보 감소를 동시에 해결하며, 서비스 신뢰도 크게 높임.
다만, RL이 선별적 칭찬에 편향되는 경향, 그리고 다중 단계 대화에서의 지속적인 품질 보장이 여전한 숙제라는 점도 솔직히 인정.
앞으로는 의료 이미지 등 멀티모달 융합, 개인 맞춤형 실시간 피드백 강화, 지식 신선도 향상 등의 연구 진전 필요.

마무리하며

QuarkMed 논문은 의료 AI 분야에서 데이터 준비, 모델 설계, 학습 방법, 그리고 실제 서비스 적용까지 ‘전주기적인 체계화’가 얼마나 중요한지 생생하게 보여줍니다. 특히 기술적으로는 ‘도메인 지식 강화+정량적 RL 보상+RAG 신뢰성’ 세 축이 의료 LLM 발전의 핵심이라는 사실을 다시 한번 확인할 수 있었죠.

기존 연구들이 주로 데이터 확보나 모델 크기 확장 위주였다면, QuarkMed는 ‘현장 맞춤형 기술 혁신’과 ‘다양한 테스트로 검증된 완성도’를 통해 의료 AI 한 단계 업그레이드의 모범 사례를 제시했다고 감히 말씀드리고 싶네요.

더 자세한 후속 연구와 업계 프론티어 동향에 대해 궁금하시면 댓글 주세요~! 오늘도 함께 기술의 미래를 탐험해 주셔서 감사합니다 :)

참고 링크

논문 전문: https://arxiv.org/abs/2508.11894
Quark AI 서비스: https://ai.quark.cn

'AI' 카테고리의 다른 글

전문가 지식으로 무장한 ORThought: LLM 기반 최적화 모델링 자동화의 새 지평 (0)	2025.08.22
QuickMerge++: 엔트로피 기반 토큰 병합으로 2배 압축·성능 향상·AR 생성모델 효율 혁신 (0)	2025.08.21
INFIGUI-G1: 다중답변 탐험과 적응형 보상으로 GUI 에이전트의 ‘의미 있는 클릭’ 혁신을 이끌다 (6)	2025.08.12
MedErr-CT: 3D CT 영상 기반 멀티모달 대형언어모델이 의료 보고서 오류를 인지하고 교정하는 첫 실증적 평가 (5)	2025.08.11
PARAM: AI가 산업설비 점검을 실시간 ‘진단’을 넘어 ‘처방’까지 바꾼 혁신적 프레임워크 (6)	2025.08.09