연구진은 멀티모달 대규모 언어 모델(MLLM)을 활용하여 시각 기반 탐색 성능을 향상시키는 Three-Step Nav라는 새로운 플래너를 제안했어요.
Three-Step Nav는 '앞을 내다보기', '지금 보기', '뒤돌아보기'의 세 단계로 구성되어 있으며, 기존 VLN 에이전트의 경로 이탈, 조기 정지 등의 문제를 해결해요.
R2R-CE 및 RxR-CE 데이터셋에서 최고 성능을 달성했으며, 별도의 경사 업데이트나 작업별 미세 조정 없이 기존 VLN 파이프라인에 쉽게 통합될 수 있어요.