본 연구는 시각-언어 내비게이션(VLN) 에이전트의 시뮬레이션-실세계 격차 문제를 해결하기 위해 StereoNav 프레임워크를 제안합니다.
StereoNav는 타겟 위치 우선순위(Target-Location Priors)를 활용하여 시뮬레이션 환경과 실제 환경 간의 시각적 가이드 역할을 하며, 스테레오 비전을 통해 깊이 인지 능력을 향상시킵니다.
R2R-CE 및 RxR-CE 데이터셋에서 StereoNav는 기존 방식보다 적은 파라미터와 데이터로 최고 성능(SR 81.1%, SPL 68.3%)을 달성했으며, 실제 로봇 배포에서도 내비게이션 신뢰성을 향상시켰습니다.