연구진은 희소한 의미적 감독 하에서 발생하는 구조적 모순 문제를 해결하기 위해 COAL(Counterfactual and Observation-enhanced Alignment Learning) 프레임워크를 제안했습니다.
COAL은 VLM을 활용한 명시적 의미 주입(ESI)과 LLM 추론을 활용한 대조적 학습(CFL)을 통해 관찰 공간을 밀집화하고 감독을 강화합니다.
Refer-KITTI-V2 벤치마크에서 최고 성능을 7.28% 상회하며, 지식 정규화를 통한 차별성-희소성 역설 해결의 효과를 입증했습니다.