Google DeepMind가 물리적 현실 이해도를 평가하는 Physics-IQ 벤치마크의 문제점을 개선한 Physics-IQ Verified를 공개했어요. Physics-IQ Verified는 프롬프트와 ground truth 품질을 개선하고 샘플 단위 점수 시스템을 도입하여 물리적 이해도를 더 정확하게 측정해요.
기존 Physics-IQ 벤치마크의 57.6% 샘플을 개선하고 34.8% 프롬프트를 개선했으며, 6개의 이미지-비디오 생성 모델 비교 테스트에서 의미 있는 순위 변화를 확인했어요.
Physics-IQ Verified는 물리적으로 정확한 VGM 개발을 위한 신뢰성 있는 지표를 제공하여 커뮤니티 발전에 기여할 것으로 기대돼요. 벤치마크 코드는 GitHub에서 확인 가능해요.