연구진은 2D X-ray와 3D CT 데이터를 통합 처리하는 MultiMedVision 프레임워크를 개발했습니다. Sparse Vision Transformer 기반으로 3D 로터리 위치 임베딩과 가변 길이 시퀀스 패킹을 활용하여 다양한 모달 데이터를 통합 처리합니다. MIMIC-CXR와 CT-RATE 데이터셋으로 사전 훈련하여 2D 및 3D 벤치마크에서 경쟁력 있는 성능을 달성했습니다.