연구진은 인간의 주관적인 선호도와 일치하지 못하는 기존 평가 방식의 한계를 극복하기 위해 인간 중심의 비디오 평가 프레임워크 HuM-Eval을 제안했어요.
HuM-Eval은 전반적인 비디오 품질을 대략적으로 평가한 후, 2D 자세와 3D 인간 움직임을 활용하여 해부학적 정확성과 움직임 안정성을 검증하는 조분석 전략을 사용해요.
HuM-Eval은 기존 평가 방식보다 평균 인간 상관관계 58.2%를 달성하며 우수한 성능을 보였고, HuM-Bench 벤치마크를 통해 기존 텍스트-비디오 모델을 상세히 평가했어요.