연구진은 3D 의료 영상 언어 모델의 공간-의미적 추론 능력을 평가하기 위한 CT-SpatialVQA 벤치마크를 새롭게 공개했어요.
CT-SpatialVQA는 1601개의 CT 데이터와 방사선학 보고서에서 추출한 9077개의 질문-답변 쌍으로 구성되어 있으며, 95%의 높은 합의율을 보입니다.
8개의 3D 의료 영상 언어 모델을 평가한 결과, 공간-의미적 추론 능력은 평균 34%의 정확도를 기록하며, 임상적 신뢰성을 확보하기 위해서는 더 깊은 볼륨 데이터 통합이 필요하다는 것을 확인했어요.