연구진은 오디오-언어 모델(LALM)의 추론 능력을 향상시키는 Audio-DeepThinker 프레임워크를 개발했어요. 이 프레임워크는 LLM 평가와 임베딩 유사성을 결합한 하이브리드 보상 시스템을 활용합니다.
Audio-DeepThinker는 지도 학습 데이터에 의존하지 않고 순수한 강화 학습 탐색을 통해 체인 오브 소트(CoT) 추론 능력을 발전시키는 점진적 2단계 커리큘럼을 사용합니다.
개발 결과, Audio-DeepThinker는 MMAR, MMAU-test-mini, MMSU 벤치마크에서 최고 성능을 달성하며 Interspeech 2026 오디오 추론 챌린지에서 1위를 차지했어요.