연구진은 음성 LLM의 인터페이스로 널리 사용되는 의미 기반 음성 토크나이저의 한계, 즉 음성 외 다른 작업에서의 제한적인 활용성을 극복하기 위해 UniAudio-Token 프레임워크를 제안했어요.
UniAudio-Token은 의미 기반 토크나이저의 정보 손실을 줄이기 위해 음성 콘텐츠, 성대 특징, 청각 장면 원시 데이터로 오디오를 분해하는 SAP와, 콘텐츠에 따라 미세한 음향 세부 정보를 복원하는 SAE를 도입했어요.
UniAudio-Token은 다운스트림 LLM과 통합했을 때 이해 및 생성 작업에서 기존 토크나이저보다 뛰어난 성능을 보이며, 모든 코드, 훈련 및 추론 스크립트, 모델 체크포인트를 공개했어요.