연구진은 인간형 시각 검색(HVS) 과정에서 탐색 과정을 분리하는 새로운 프레임워크 '360° 환경에서 상상력 활용'을 제안했어요.
이 프레임워크는 '상상자(Imaginator)'와 '행위자(Actor)'로 구성되어, 상상자가 주변 환경의 의미적 구조를 예측하고 행위자에게 효과적인 공간 정보를 제공해요.
새로운 접근 방식은 전체 경로에 대한 CoT(Chain-of-Thought) 주석의 필요성을 없애 196만 개 이상의 훈련 샘플을 생성하고, 복잡한 환경에서 검색 효율성과 성공률을 향상시켰어요.