연구진은 3D 의료 영상 이해의 문제점인 텍스트 임베딩 공간의 표현 붕괴를 해결하기 위해 CA-GCL(Cross-Anatomy Global-Local Contrastive Learning) 프레임워크를 제안했습니다.
CA-GCL은 해부학적 범주 간 분리를 강제하는 글로벌 대비 목적을 도입하여 표현 붕괴를 방지하고, 임상적으로 인식하는 텍스트 증강 전략을 통해 설명 불완전성에 대한 강건성을 향상시킵니다.
CT-RATE 및 Rad-ChestCT 데이터셋 평가 결과, CA-GCL은 기존 VLP 방식보다 우수한 성능을 보이며, 다양한 프롬프트 템플릿 간 성능 변동을 줄여 안정적인 결과를 제공합니다.