Pulse · AI 뉴스

P2DNav: 파노라마-다운뷰 추론을 활용한 제로샷 비전-언어 내비게이션

P2DNav · 2026-05-19

연구진이 파노라마-다운뷰 추론을 활용한 제로샷 비전-언어 내비게이션 프레임워크 P2DNav를 제안했어요.

P2DNav는 파노라마 방향 선택과 다운뷰 로컬 타겟 예측의 두 단계로 나뉘며, 장기적인 내비게이션을 지원하는 대화형 메모리 관리와 오류 수정 메커니즘을 포함해요.

R2R-CE 벤치마크 실험 결과, P2DNav는 기존 제로샷 방식 대비 SR 점수가 각각 146.6%와 58.9% 향상된 뛰어난 성능을 보여줬어요.

##VLN##제로샷##내비게이션##인공지능##비전언어

매일 핵심 AI 소식을 한국어로, 빠르게