Reddit 사용자가 LTX-2.3 기반 오디오 모델의 다양한 음성 출력 예시를 공유하며, 악당의 웃음소리, 느와르 영화 주인공, 토크쇼 진행자의 폭소, 액션 히어로의 승리 쾌감을 묘사한 프롬프트들을 제시했습니다.
이 모델은 45초 분량의 안정적인 출력을 제공하며, 더 긴 프롬프트 처리를 위한 지속적인 청킹 실험이 진행 중입니다.
Gemma 모델을 오프로딩하여 사용할 경우 약 8GB의 VRAM을 사용하며, 모델 전체를 메모리에 로드하면 약 21GB의 VRAM을 사용하지만 추론 속도가 크게 향상됩니다.