본 연구는 음성 인식, 특히 빠른 인식을 돕는 인코더 중심 모델의 성능 향상을 위해 텍스트 데이터만 활용하는 효율적인 방법을 탐구해요. 텍스트 데이터 통합 기법 비교 실험 결과, 인코더의 크기를 키우고 디코더 크기를 줄이는 구조가 더 나은 성능을 낼 수 있음을 확인했어요. 간단한 구조의 모델이 복잡한 모델보다 효과적이며, 훈련 과정을 단순화할 수 있다는 점을 보여주며, 관련 코드와 레시피를 공개했어요.