연구진이 비전-언어 모델(VLM)의 전문 분야 적응력을 평가하기 위해 AnyGroundBench라는 새로운 벤치마크를 공개했어요.
AnyGroundBench는 동물, 산업, 스포츠, 수술, 공공 안전 등 5가지 전문 분야의 비디오 데이터를 활용하여 기존 벤치마크의 한계를 극복하고자 설계됐어요.
15개의 최신 VLM을 평가한 결과, 전문 분야에서는 제로샷 및 인컨텍스트 학습(ICL) 모두 성능이 저하되는 문제점이 확인돼 향후 연구 방향을 제시했어요.