Pulse · AI 뉴스

Spatial-Omni: 멀티모달 LLM에 FOA 인코딩을 활용한 공간 음향 이해 통합

Spatial-Omni · 2026-06-09

Spatial-Omni는 기존 Omni LLM에 공간 음향 정보를 통합하는 경량화된 방법입니다. First-Order Ambisonics(FOA)를 활용하여 공간 음향의 공간적 단서를 보존하고, 위치 파악 및 공간 추론 능력을 향상시킵니다.

연구진은 SO-Dataset, SO-QA, SO-Bench를 구축하여 40만 개의 FOA 공간 음향 클립과 210만 개의 공간 질의응답 쌍을 제공하며, 16가지 공간 음향 이해 하위 작업을 지원합니다.

Spatial-Omni는 기존 LALM 및 Omni LLM 모델을 능가하는 성능을 보이며, 일반적인 음향 이해 능력도 유지합니다. 코드와 데이터는 GitHub에서 확인할 수 있습니다.

##공간음향##멀티모달##LLM##인공지능
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기