HarmoView는 시점 변화가 큰 상황에서도 동일 인물의 외형을 유지하는 비디오 생성 문제를 해결하기 위해 제안된 프레임워크입니다.
Multi-level Feature Injection, learnable proxy tokens, Jump-RoPE 등 세 가지 아키텍처 개선과 점진적 학습 커리큘럼을 통해 다중 시점 정보를 효과적으로 통합합니다.
HarmoView는 52명의 고유한 인물로 구성된 다중 시점 벤치마크에서 기존 모델보다 뛰어난 성능을 보이며, 최고 수준의 동일 인물 일관성 비디오 생성 능력을 입증했습니다.