연구진은 다발성 골수종 환자의 장기 기록을 분석하여 LLM 기반 시스템이 전문가 수준의 합의에 얼마나 근접하는지 평가했어요. 에이전트 기반 추론 시스템은 기존 RAG 방식보다 높은 정확도를 보였으며, 특히 복잡한 질문과 긴 기록에서 성능 향상이 두드러졌어요. 시스템 오류의 임상적 중요성이 전문가 간 의견 불일치보다 높게 나타나, 실제 환자 치료에 적용하기 전 추가적인 검증이 필요해요.