Pulse · AI 뉴스

CALM 논문 구현 시 어려움, 해결 방안 문의

kyutai-labs · 2026-06-30

사용자가 kyutai-labs의 Pocket TTS 논문 구현에 어려움을 겪고 있으며, 학습 코드 미공개로 자체 구현 중입니다.

LJSpeech 데이터셋으로 구현 시 flow matching 손실은 낮지만, 생성된 음성은 의미 없는 텍스트를 생성하는 문제가 발생했습니다.

LibriSpeech 데이터셋으로 구현 시 오디오 조건과 텍스트 토큰 배치에 따라 음성 품질과 텍스트 정확도 간의 상충 현상이 나타나고, 손실이 불안정합니다.

##TTS##CALM##PocketTTS##오디오##학습

매일 핵심 AI 소식을 한국어로, 빠르게