Pulse · AI 뉴스

LTX-2.3 기반 오디오 모델, 다양한 음성 출력 가능

Gemma · 2026-04-18

Reddit 사용자가 LTX-2.3 기반 오디오 모델의 다양한 음성 출력 예시를 공유하며, 악당의 웃음소리, 느와르 영화 주인공, 토크쇼 진행자의 폭소, 액션 히어로의 승리 쾌감을 묘사한 프롬프트들을 제시했습니다.

이 모델은 45초 분량의 안정적인 출력을 제공하며, 더 긴 프롬프트 처리를 위한 지속적인 청킹 실험이 진행 중입니다.

Gemma 모델을 오프로딩하여 사용할 경우 약 8GB의 VRAM을 사용하며, 모델 전체를 메모리에 로드하면 약 21GB의 VRAM을 사용하지만 추론 속도가 크게 향상됩니다.

##오디오모델##LTX-2.3##Gemma

매일 핵심 AI 소식을 한국어로, 빠르게