Pulse · AI 뉴스

오디오-딥띵커: 점진적 추론 인식 강화 학습으로 고품질 체인 오브 소트(Chain-of-Thought) 생성

Audio-DeepThinker · 2026-04-20

연구진은 오디오-언어 모델(LALM)의 추론 능력을 향상시키는 Audio-DeepThinker 프레임워크를 개발했어요. 이 프레임워크는 LLM 평가와 임베딩 유사성을 결합한 하이브리드 보상 시스템을 활용합니다.

Audio-DeepThinker는 지도 학습 데이터에 의존하지 않고 순수한 강화 학습 탐색을 통해 체인 오브 소트(CoT) 추론 능력을 발전시키는 점진적 2단계 커리큘럼을 사용합니다.

개발 결과, Audio-DeepThinker는 MMAR, MMAU-test-mini, MMSU 벤치마크에서 최고 성능을 달성하며 Interspeech 2026 오디오 추론 챌린지에서 1위를 차지했어요.

##오디오모델##강화학습##체인오브소트
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기