연구진이 복부 CT 영상에서 장기 위치를 파악하는 CT-3GDINO 모델을 개발했어요. Grounding-DINO 스타일의 쿼리 기반 구조를 활용해 가짜 텍스트 클래스 토큰을 사용했어요.
Swin3D 백본, 양방향 특징 강화, 가짜 텍스트 기반 쿼리 선택, 크로스 모달 디코더를 결합해 간, 비장, 좌우 신장, 장의 3D 박스를 예측해요.
연구 결과, CT-3GDINO는 0.1~0.7의 3D IoU 임계값에서 0.5830의 전체 top-1 클래스별 mAP를 달성하며 기존 모델보다 우수한 성능을 보였어요.