연구진이 LLM의 임상 유용성을 평가하는 새로운 프레임워크 AIPatient Arena를 제안했어요. 이 프레임워크는 EHR 데이터를 활용해 환자별 지식 그래프를 구축하고, 다중 턴 의사-환자 상호작용을 가능하게 해요.
AIPatient Arena를 통해 LLM은 의학적 면담 질문 능력, 윤리적 행동, 설명 명확성에서 높은 점수를 받았지만, 모호한 답변 처리, 정보 커버리지, 진단 정확도에서는 약점을 보였어요.
프로세스 기반 평가에서 LLM은 반복적인 질문, 과거 병력 누락, 불확실성 처리 미흡 등 상호작용 실패를 반복적으로 보여줬어요.
연구 결과는 최종 답변 정확도만으로는 임상 준비 상태를 평가하기 부족하며, 정보 수집, 해석, 전달 과정 평가의 중요성을 강조해요.