CoInteract는 인간-객체 상호작용(HOI) 동영상 합성을 위한 새로운 프레임워크로, 손이나 얼굴과 같은 민감한 영역의 구조적 안정성과 물리적으로 타당한 접촉을 개선하는 데 중점을 둡니다.
CoInteract는 Diffusion Transformer(DiT) 기반으로 인간 인지 Mixture-of-Experts(MoE)와 공간 구조 공동 생성을 도입하여 구조적 정확성과 상호작용의 현실감을 높였습니다.
실험 결과, CoInteract는 기존 방법보다 구조적 안정성, 논리적 일관성, 상호작용의 현실감 측면에서 뛰어난 성능을 보였습니다.