Pulse · AI 뉴스

Audio Interaction Model: 실시간 음성 상호작용을 위한 새로운 모델

Audio Interaction Model · 2026-06-03

연구진이 오프라인 방식의 기존 대형 음성 언어 모델(LALM)의 한계를 극복하기 위해 실시간 음성 상호작용 모델인 Audio Interaction Model을 제안했어요.

Audio-Interaction 모델은 실시간으로 소리, 환경, 지시를 인식하고 반응하는 perceive-decide-respond 루프를 통해 다양한 음성 작업을 통합적으로 처리할 수 있어요.

연구진은 SoundFlow 프레임워크와 StreamAudio-2M 데이터셋을 구축하고 Proactive-Sound-Bench를 통해 Audio-Interaction 모델의 성능을 검증했는데, 기존 모델 대비 실시간 ASR, 음성 지시 따르기, 능동적 지원 등의 기능을 구현했어요.

##음성모델##실시간##LALM##AI##연구

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기