Walkyrie-1.3B는 Wan2.1-T2V-1.3B를 기반으로 한 텍스트-이미지 확산 모델입니다. 텍스트 인코더(UMT5)를 약 10억 파라미터로 가지며, 텍스트-비디오 아키텍처를 고품질 텍스트-이미지 파이프라인으로 전환했습니다. 현재까지 계획된 학습 예산의 약 20%만 학습되었으며, 품질과 안정성은 추가 학습을 통해 크게 개선될 것으로 예상됩니다.