Pulse · AI 뉴스

Three-Step Nav: 시각-언어 탐색을 위한 계층적 글로벌-로컬 플래너

arXiv cs.CV · 2026-04-30

연구진은 멀티모달 대규모 언어 모델(MLLM)을 활용하여 시각 기반 탐색 성능을 향상시키는 Three-Step Nav라는 새로운 플래너를 제안했어요.

Three-Step Nav는 '앞을 내다보기', '지금 보기', '뒤돌아보기'의 세 단계로 구성되어 있으며, 기존 VLN 에이전트의 경로 이탈, 조기 정지 등의 문제를 해결해요.

R2R-CE 및 RxR-CE 데이터셋에서 최고 성능을 달성했으며, 별도의 경사 업데이트나 작업별 미세 조정 없이 기존 VLN 파이프라인에 쉽게 통합될 수 있어요.

##VLN##MLLM##네비게이션##AI##연구

매일 핵심 AI 소식을 한국어로, 빠르게