연구진은 3D 장면 이해의 핵심 과제인 포인트 클라우드 분할의 어려움을 해결하기 위해 xModel-KD라는 새로운 교차 모달 지식 증류 프레임워크를 제안했어요.
xModel-KD는 2D 텍스처와 3D 기하학의 장점을 활용하여 교차 모달 정렬을 통해 통합된 포인트별 표현을 학습하며, 이미지의 외관 정보를 기하학 기반 포인트 특징으로 전달해요.
실험 결과, 교차 모달 융합은 LiDAR만 사용하는 기준 대비 mIoU에서 2% 향상된 성능을 보여주며, 상호 보완적인 다중 모달 정보를 활용한 확장 가능하고 주석 효율적인 3D 장면 이해의 이점을 입증했어요.