LCGNav는 시각-언어 내비게이션(VLN)의 토폴로지 기반 계획 시 과도한 깊이 정보와 후보 프론티어에 대한 집중력 저하 문제를 해결하기 위해 개발된 프레임워크입니다.
LCGNav는 후보 깊이 뷰를 3D 포인트 클라우드로 변환하고, 에이전트의 도달 범위에 따라 물리적 절단을 적용하여 더욱 간결한 로컬 기하학적 모델링을 가능하게 합니다.
R2R-CE 및 RxR-CE 벤치마크에서 실험 결과, LCGNav는 다양한 온라인 토폴로지 기반 모델의 성능을 향상시키며, ETP-R1과 통합 시 가장 뛰어난 성능을 달성했습니다.