연구진이 단안 비디오에서 다중 객체 상호작용을 복원하는 프레임워크 HAT-4D를 제안했어요. HAT-4D는 VLM과 인간 피드백을 결합하여 복원 과정에서 발생하는 문제점을 해결하고 물리적으로 타당한 결과를 얻도록 설계됐어요. HAT-4D로 생성된 데이터는 기존 모델의 성능을 향상시키는 데 활용될 수 있으며, 관련 데이터와 코드는 GitHub에서 확인할 수 있어요.