기존 참조 분할 모델은 고정된 시점에서 촬영된 정적 이미지를 수동적으로 처리하여 Embodied AI 환경에 적용하기 어렵습니다.
연구진은 사용자의 지시사항에 따라 분할을 위해 360° 환경에서 시야각을 조정하는 Active Panoramic Referring Segmentation (APRS)이라는 새로운 과제를 제시합니다.
PanoSeeker는 효율적인 APRS를 위해 Vision-Language Model (VLM)과 명시적 공간 시각 메모리 EgoSphere를 통합한 메모리 증강 에이전트입니다.
새롭게 구축된 APRS 벤치마크에서 PanoSeeker는 기존 모델보다 우수한 탐색 효율성과 분할 정확도를 달성했습니다.