연구진이 전문 분야의 시공간적 영상 설명 모델 성능을 평가하는 AnyGroundBench 벤치마크를 공개했어요. 동물, 산업, 스포츠, 수술, 공공 안전 등 5개 전문 분야의 새로운 영상을 활용해 기존 데이터셋과 통합하고, 정밀한 시공간적 주석을 제공해요. 15개의 최신 VLM 모델을 평가한 결과, 전문 분야에서는 제로샷 및 인컨텍스트 학습 기반 적응 모두 실패하는 것으로 나타났어요.