Pulse · AI 뉴스

CLExEval: LLM 임상 추론 평가를 위한 인간-루프 프레임워크

CLExEval · 2026-06-30

연구진은 LLM의 임상 추론 능력을 평가하는 새로운 프레임워크 CLExEval을 공개했어요. CLExEval은 5,600명의 전문의사 어노테이션과 40건의 희귀 진단 사례를 활용합니다.

분석 결과, LLM은 정보 부족 시 정확도가 크게 떨어지는 'verbosity bias'와 숨겨진 지식 활용 실패, 추론 과정과 최종 답변 불일치 등의 문제점을 보였어요.

GPT-4o-mini는 임상적으로 잘못된 답변을 47.9%나 승인했고, HuatuoGPT-o1은 모든 유효한 실패 사례를 승인하며 긍정적 자기 선호 편향을 보였어요.

##LLM##임상추론##의료AI##평가##CLExEval

매일 핵심 AI 소식을 한국어로, 빠르게