LongCat-Video-Avatar 1.5가 공개되었어요. 이 프레임워크는 오디오 기반 아바타 영상 생성의 안정성과 상용화 가능성을 높이는 데 중점을 둡니다.
Whisper-Large 오디오 인코더를 적용하여 입술 움직임이 더욱 자연스러워졌고, 8단계 추론으로 효율성을 높였어요.
애니메이션, 동물, 복잡한 실시간 환경에서도 안정적인 영상 생성이 가능하며, Audio-Text-to-Video, Audio-Text-Image-to-Video, Video Continuation 기능을 지원해요.