연구진이 V2A 모델의 물리적 추론 능력을 평가하는 FlatSounds 벤치마크를 공개했어요. 벤치마크는 단일 물리적 요인이 변하는 반사실적 쌍과 일관성 및 추세 테스트를 통해 모델의 물리적 정확성을 평가해요. 최신 모델 평가 결과, 모델은 시각 정보보다 텍스트 설명을 통해 물리적 속성 및 의미를 추론하는 경향이 있어요.
텍스트 설명은 물리적, 의미적 정확성을 향상시키지만, 시간 정렬을 저해하는 역효과가 발생해요. 연구진은 픽셀로부터 직접 물리적 과정을 학습하는 방향으로 나아갈 필요가 있다고 강조했어요.