연구진이 인간 동작 이해 능력 평가의 한계를 극복하기 위해 새로운 벤치마크 NextMotionQA를 공개했어요. NextMotionQA는 객관식 질문 답변, 영상 캡셔닝, 오류 수정 3가지 과제를 포함하며, 세밀한 의미축과 난이도 수준으로 구성돼 있어요. 12개 VLM 평가 결과, 기존 벤치마크로는 파악하기 어려웠던 모델의 약점을 발견했으며, VLM이 전문가와 일치하는 부분과 한계도 확인했어요.