연구진은 LLM의 진단 추론 과정을 평가하기 위해 임상적 추론 그래프라는 새로운 구조화된 그래프 표현 방식을 개발했어요.
5가지 LLM 모델과 50개의 New England Journal of Medicine 사례를 분석한 결과, 임상적으로 유사한 사례 간의 그래프 유사성이 일관되지 않아 진단 정확도만으로는 LLM의 안정적인 추론을 판단하기 어렵다는 것을 확인했어요.
연구 결과는 최종 답변 정확도 외에 과정 수준의 평가가 필요함을 시사하며, 개발된 ontology, 추출 파이프라인, 검증 프로토콜, 추출된 추론 그래프 등을 공개했어요.