연구진은 기존 CLAP 기반 오디오-텍스트 검색 시스템의 한계를 지적하며, 실제 사용자의 검색 의도를 반영한 새로운 평가 방법인 User-Intent Queries (UIQ)를 제시했어요.
Omni-Embed-Audio (OEA)는 다중 모달 LLM을 활용하여 텍스트-텍스트 검색 성능과 어려운 부정 샘플 구별 능력에서 기존 모델보다 우수한 성능을 보여줬어요.
OEA는 AudioCaps, Clotho, MECAT 데이터셋에서 M2D-CLAP과 유사한 성능을 보였지만, 특히 텍스트-텍스트 검색과 부정 샘플 구별에서 뚜렷한 강점을 나타냈어요.