연구진은 이미지 내 인간-객체 상호작용(HOI) 편집 성능을 평가하는 새로운 벤치마크 'HOI-Edit'을 공개했어요. HOI-Edit은 세 단계의 인지 수준으로 구성되며, VLM 질의응답을 활용한 자동 평가 지표 'HOI-Eval'을 통해 HOI의 정확성을 평가해요. 연구진은 I2V 모델이 시간적 생성 능력을 활용해 HOI 편집에 적합하며, 자기 교정 프레임워크 'SCPE'를 통해 성능을 개선할 수 있음을 입증했어요.