연구진은 오디오 이해 및 생성을 모두 지원하는 토크나이저 개발에 어려움을 겪고 있습니다. 이를 위해 연속적인 오디오 자동 인코더 Latent를 활용하여 노이즈 정규화 병목 현상과 Latent-side 표현 인코더를 도입했습니다. 결과적으로 고차원 표현으로 이해를 지원하면서도 정규화된 연속 Latent를 생성 목표로 유지하는 토크나이저를 만들었습니다.