연구진이 의료 영상 진단 경로를 평가하는 새로운 벤치마크 DDX-TRACE를 공개했어요. 기존 벤치마크는 최종 답변만 평가해 진단 과정의 질을 제대로 반영하지 못하는 한계가 있었어요. DDX-TRACE는 모델이 필요한 검사 과정을 자유롭게 요청하고, 이미지를 분석하며, 확률적 감별 진단을 업데이트하는 과정을 평가해요.
DDX-TRACE는 211개의 어려운 사례로 구성되어 있으며, 의사가 판단한 결과를 바탕으로 모델의 진단 경로를 평가해요. 최신 VLMs를 평가한 결과, 최종 진단 점수가 진단 과정의 질을 제대로 반영하지 못하는 경우가 많았어요.
연구진은 DDX-TRACE를 통해 의료 AI 평가를 최종 답변에서 증거 기반 진단 경로로 전환하는 데 기여할 것으로 기대하고 있어요.