연구에 따르면 음성 대화 모델은 텍스트 LLM 기반으로 시작하지만, 음성을 조건으로 사용할 때 추론 능력이 저하되는 경향이 있어요. 이는 음성 토큰이 시간적으로 중복되고 텍스트보다 길어, 토큰당 의미 밀도를 희석시키고 텍스트 기반 추론 역학을 약화시키기 때문이에요. 연구진은 음성 토큰 디자인을 표현 선택 문제로 보고, LLM 기반을 고정하고 정보율을 일정하게 유지하며 프레임 레이트를 조정했어요.