Meituan Longcat이 오디오 기반 아바타 영상 생성 프레임워크 LongCat-Video-Avatar 1.5를 공개했어요. 이 프레임워크는 Whisper-Large 오디오 인코더를 사용하여 입술 움직임을 개선하고, 상업용으로 안정적인 성능을 제공해요.
새로운 벤치마크를 통해 6가지 시나리오, 2개 언어, 2가지 비주얼 스타일을 평가하여 인간 유사성을 1~5점으로 측정했어요. 주관적 평가에서는 770명의 평가자가 참여하여 총 13,240개의 판단을 내렸어요.
LongCat-Video 기반 모델로, Audio-Text-to-Video, Audio-Text-Image-to-Video, Video Continuation 기능을 지원하며, 단일/다중 오디오 입력 모두 호환돼요. 8단계 추론으로 빠른 속도와 뛰어난 시각적 품질을 동시에 제공해요.
모델 가중치는 MIT 라이선스 하에 공개되었으며, 애니메이션, 동물, 복잡한 실시간 조건에서도 안정적인 성능을 보여줘요.