연구진은 LLM의 임상 추론 능력을 평가하는 새로운 프레임워크 CLExEval을 공개했어요. CLExEval은 5,600명의 전문의사 어노테이션과 40건의 희귀 진단 사례를 활용합니다.
분석 결과, LLM은 정보 부족 시 정확도가 크게 떨어지는 'verbosity bias'와 숨겨진 지식 활용 실패, 추론 과정과 최종 답변 불일치 등의 문제점을 보였어요.
GPT-4o-mini는 임상적으로 잘못된 답변을 47.9%나 승인했고, HuatuoGPT-o1은 모든 유효한 실패 사례를 승인하며 긍정적 자기 선호 편향을 보였어요.