연구진이 3D 환경에서 목표 이미지와 일치하도록 시점을 조정하는 능력을 평가하는 새로운 액티브 태스크인 Target Viewpoint Reproduction (TVR)와 벤치마크인 TVRBench를 공개했어요.
TVR은 현재까지 해결되지 않은 과제로, 최고 성능 모델조차도 성공률이 12%에 불과하며, 시각적 역사 처리 및 몸 움직임과 관련된 어려움이 있는 것으로 나타났어요.
연구진은 TVR 벤치마크를 통해 시점을 적극적으로 인지하고 행동하는 기초 모델을 측정하고 훈련할 수 있는 테스트베드를 구축했으며, 관련 코드와 데이터는 GitHub에서 공개됐어요.