연구진이 단일 카메라 또는 희소 다중 뷰 비디오를 동기화된 밀집 다중 뷰 비디오로 변환하는 Flex4DHuman 모델을 공개했어요.
기존 방법과 달리 Flex4DHuman은 골격, 깊이 맵, 노멀, 렌더링된 타겟 뷰 지오메트리 등 명시적인 지오메트리 사전 정보 없이 카메라 포즈를 기반으로 생성돼요.
Wan 2.1 1.3B 텍스트-비디오 모델을 기반으로 하며, 4D Gaussian splat 생성 파이프라인에 직접 적용 가능하며, DNA-Rendering 및 ActorsHQ 데이터셋에서 기존 방법보다 성능이 우수해요.