연구진은 기존 LLM 평가 지표가 임상적 정확성을 간과하여 방사선 보고서 품질을 부적절하게 평가한다고 지적했어요.
ReEvalMed 벤치마크를 활용하여 LLM이 실제 임상 오류를 감지하는 능력(Discrimination)과 무의미한 변형을 허용하는 능력(Robustness)을 평가했어요.
연구 결과, LLM은 임상 오류를 잘 감지하지만, 무해한 재구성을 과도하게 벌점 부과하는 경향(Discrimination bias)이 있는 것으로 나타났어요.
Qwen3-8B와 MedGemma-4B를 활용하여 4천 개의 보고서 쌍으로 가볍고 해석 가능한 지표를 훈련하여 임상적 중요도 경계를 개선하고, 기존 32B 규모의 의료 LLM을 능가하는 성능을 달성했어요.