연구진이 오프라인 방식의 기존 대형 음성 언어 모델(LALM)의 한계를 극복하기 위해 실시간 음성 상호작용 모델인 Audio Interaction Model을 제안했어요.
Audio-Interaction 모델은 실시간으로 소리, 환경, 지시를 인식하고 반응하는 perceive-decide-respond 루프를 통해 다양한 음성 작업을 통합적으로 처리할 수 있어요.
연구진은 SoundFlow 프레임워크와 StreamAudio-2M 데이터셋을 구축하고 Proactive-Sound-Bench를 통해 Audio-Interaction 모델의 성능을 검증했는데, 기존 모델 대비 실시간 ASR, 음성 지시 따르기, 능동적 지원 등의 기능을 구현했어요.