Pulse · AI 뉴스

시각-언어 내비게이션의 한계는 무엇일까요? - StereoNav 프레임워크 소개

StereoNav · 2026-05-13

본 연구는 시각-언어 내비게이션(VLN) 에이전트의 시뮬레이션-실세계 격차 문제를 해결하기 위해 StereoNav 프레임워크를 제안합니다.

StereoNav는 타겟 위치 우선순위(Target-Location Priors)를 활용하여 시뮬레이션 환경과 실제 환경 간의 시각적 가이드 역할을 하며, 스테레오 비전을 통해 깊이 인지 능력을 향상시킵니다.

R2R-CE 및 RxR-CE 데이터셋에서 StereoNav는 기존 방식보다 적은 파라미터와 데이터로 최고 성능(SR 81.1%, SPL 68.3%)을 달성했으며, 실제 로봇 배포에서도 내비게이션 신뢰성을 향상시켰습니다.

##VLN##로봇내비게이션##스테레오비전
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기