Spatial-Omni는 기존 Omni LLM에 공간 음향 정보를 통합하는 경량화된 방법입니다. First-Order Ambisonics(FOA)를 활용하여 공간 음향의 공간적 단서를 보존하고, 위치 파악 및 공간 추론 능력을 향상시킵니다.
연구진은 SO-Dataset, SO-QA, SO-Bench를 구축하여 40만 개의 FOA 공간 음향 클립과 210만 개의 공간 질의응답 쌍을 제공하며, 16가지 공간 음향 이해 하위 작업을 지원합니다.
Spatial-Omni는 기존 LALM 및 Omni LLM 모델을 능가하는 성능을 보이며, 일반적인 음향 이해 능력도 유지합니다. 코드와 데이터는 GitHub에서 확인할 수 있습니다.