AwareVLN은 시각-언어 내비게이션 모델에 자기 인식 기반 추론 메커니즘을 적용하여 에이전트의 상태와 작업 진행 상황을 이해하는 새로운 프레임워크입니다. 구조적 추론 모듈과 자동 데이터 엔진을 통해 기존 방식보다 성능을 향상시켰습니다.
기존 방식은 에이전트, 지시, 장면 간 관계에 대한 명확한 이해가 부족하거나, 3D 센서에 의존하는 맵핑 방식의 한계가 있었습니다. AwareVLN은 이러한 단점을 보완하여 데이터 기반 방식으로 문제를 해결합니다.
Habitat 시뮬레이터 환경에서 실험 결과, AwareVLN은 기존 최고 성능 모델보다 뛰어난 결과를 보여주었습니다. 프로젝트 페이지는 https://gwxuan.github.io/AwareVLN/ 입니다.