연구진이 실시간 음성 상호작용 LLM의 추론 지연과 응답 속도 간 균형을 맞추는 '웨이트-씽크-앤서' 제어 방식을 제안했어요.
Qwen2.5-Omni-7B 모델을 기반으로 음성 추론 데이터를 활용해 제어기를 학습하고, 정답성, 행동 유효성, 타이밍, 지연 동기화 등 6가지 보상을 최적화했어요.
합성 SRQA 벤치마크에서 정확도를 67.6%에서 70.3% 향상시키고, 최종 추론 시간을 14% 단축하는 성과를 거뒀어요.
실제 음성 데이터 벤치마크에서도 제어기는 기능적으로 유지되며, 학습된 변형 모델 중 최종 추론 시간이 가장 짧은 것으로 나타났어요.