연구진이 LALM(Large Audio-Language Model)의 복잡한 오디오 추론 능력 향상을 위해 중복 제거 데이터셋 AudioDER를 공개했어요. AudioDER는 음성, 연설, 음악 데이터를 포괄하며 약 19만1천개 샘플로 구성돼요.
AudioDER는 음향 유사성을 기반으로 원시 오디오 데이터셋의 중복을 제거하고 기존 오디오 캡션과 질문-답변 쌍을 통합하는 파이프라인을 통해 구축돼요.
Qwen3-30B를 활용해 추론 지향적 감독을 위한 Chain-of-Thought(CoT) 설명을 생성했으며, Qwen2-Audio-7B-Instruct 모델의 MMAU-mini, MMSU, MMAR 벤치마크 성능을 향상시키는 효과를 보였어요.