연구진이 파노라마-다운뷰 추론을 활용한 제로샷 비전-언어 내비게이션 프레임워크 P2DNav를 제안했어요. P2DNav는 파노라마 방향 선택과 다운뷰 로컬 타겟 예측의 두 단계로 나뉘며, 장기적인 내비게이션을 지원하는 대화형 메모리 관리와 오류 수정 메커니즘을 포함해요. R2R-CE 벤치마크 실험 결과, P2DNav는 기존 제로샷 방식 대비 SR 점수가 각각 146.6%와 58.9% 향상된 뛰어난 성능을 보여줬어요.