이 논문은 단안 비디오에서 사진처럼 사실적이고 애니메이션 가능한 3D 휴먼 아바타를 재구성하는 문제를 다루고 있어요. 기존 방법은 개인별 최적화와 일반적인 휴먼 사전 지식을 결합하지만, 학습 프레임이 제한적일 때 세밀한 디테일을 포착하는 데 어려움이 있어요.
연구진은 Pose와 카메라에 가우시안 노이즈를 적용해 다양한 새로운 샘플을 생성하는 Generator, 텍스처와 지오메트리 힌트를 통해 생성된 데이터 품질을 개선하는 Refiner, 이중 브랜치 어텐션 기반 유사성 평가를 통해 피험자 일관성 샘플을 선택하는 Examiner로 구성된 TrioMan 프레임워크를 제안했어요.
X-Humans와 NeuMan 벤치마크 실험 결과 TrioMan은 기존 최고 성능 모델보다 우수한 성능을 보여줬어요.