Pulse · AI 뉴스

어떤 음성 표현이 텍스트 기반 추론과 더 잘 맞을까? 프레임 레이트와 표현에 대한 연구

arXiv cs.CL · 2026-06-11

연구에 따르면 음성 대화 모델은 텍스트 LLM 기반으로 시작하지만, 음성을 조건으로 사용할 때 추론 능력이 저하되는 경향이 있어요. 이는 음성 토큰이 시간적으로 중복되고 텍스트보다 길어, 토큰당 의미 밀도를 희석시키고 텍스트 기반 추론 역학을 약화시키기 때문이에요. 연구진은 음성 토큰 디자인을 표현 선택 문제로 보고, LLM 기반을 고정하고 정보율을 일정하게 유지하며 프레임 레이트를 조정했어요.

##음성##LLM##프레임레이트##표현
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기