연구진이 실시간 음성 상호작용을 위한 통합 모델 'Audio Interaction Model'을 발표했어요. 기존 모델은 오프라인이거나 단일 작업만 수행했지만, 이 모델은 실시간으로 소리, 환경, 지시를 처리하고 반응해요.
연구진은 'SoundFlow' 프레임워크를 제안하여 데이터 구축부터 배포까지 실시간 상호작용을 위한 일관된 파이프라인을 구축하고, 260만 개의 음성 데이터셋 'StreamAudio-2M'을 공개했어요.
Audio Interaction Model은 기존 음성 작업 성능을 유지하면서 실시간 ASR, 음성 지시 따르기, 능동적인 도움 제공 등 새로운 기능을 선보이며 오프라인 LALM으로는 불가능했던 기능을 가능하게 해요.