연구진은 세밀한 인간 활동 이해를 위한 비전-언어 모델(VLM) 벤치마크 FineBench를 공개했어요. FineBench는 64개의 장편 영상(15분)에 19만9420개의 질문-답변 쌍을 밀집적으로 주석 처리하여, 사람의 움직임, 상호 작용, 물체 조작을 평가합니다.
GPT-5와 같은 독점 모델은 괜찮은 성능을 보이지만, 현재 공개된 VLM은 특히 다인체계 장면에서 공간 추론 능력이 부족하고 미묘한 움직임 차이를 구별하는 데 어려움을 겪는 것으로 나타났어요.
연구진은 FineAgent 프레임워크를 제안하여 VLM의 성능을 향상시켰고, FineBench에서 다양한 공개 VLM의 성능을 개선하는 데 성공했어요. FineBench는 향후 미세한 인간 중심 영상 이해 연구를 위한 테스트베드가 될 것입니다.