사용자가 kyutai-labs의 Pocket TTS 논문 구현에 어려움을 겪고 있으며, 학습 코드 미공개로 자체 구현 중입니다. LJSpeech 데이터셋으로 구현 시 flow matching 손실은 낮지만, 생성된 음성은 의미 없는 텍스트를 생성하는 문제가 발생했습니다. LibriSpeech 데이터셋으로 구현 시 오디오 조건과 텍스트 토큰 배치에 따라 음성 품질과 텍스트 정확도 간의 상충 현상이 나타나고, 손실이 불안정합니다.