Pulse · AI 뉴스

Omni-Embed-Audio: 다중 모달 LLM을 활용한 강력한 오디오-텍스트 검색

Omni-Embed-Audio · 2026-04-20

연구진은 기존 CLAP 기반 오디오-텍스트 검색 시스템의 한계를 지적하며, 실제 사용자의 검색 의도를 반영한 새로운 평가 방법인 User-Intent Queries (UIQ)를 제시했어요.

Omni-Embed-Audio (OEA)는 다중 모달 LLM을 활용하여 텍스트-텍스트 검색 성능과 어려운 부정 샘플 구별 능력에서 기존 모델보다 우수한 성능을 보여줬어요.

OEA는 AudioCaps, Clotho, MECAT 데이터셋에서 M2D-CLAP과 유사한 성능을 보였지만, 특히 텍스트-텍스트 검색과 부정 샘플 구별에서 뚜렷한 강점을 나타냈어요.

##오디오검색##LLM##다중모달

매일 핵심 AI 소식을 한국어로, 빠르게