연구진은 자율 주행 환경에서 카메라-LiDAR 지식 증류를 위한 새로운 사전 학습 프레임워크 HilDA를 제안했어요. HilDA는 VFMs의 계층적 구조와 시공간 정보를 활용하여 기존 방식의 한계를 극복해요.
HilDA는 다층 증류와 장면 수준의 의미를 파악하는 글로벌 컨텍스트 증류, 그리고 시공간 일관성을 높이는 임시 점유율 확산 목표를 결합했어요.
HilDA로 사전 학습한 모델은 교차 모달 증류 벤치마크에서 최고 성능을 달성했으며, 3D 객체 감지, 장면 흐름, 의미론적 점유율 예측에서 기존 방식보다 뛰어난 성능을 보여줬어요.