연구진은 LLM의 추론 능력을 향상시키는 다중 보상 RLIF 프레임워크를 제안했어요. 이 프레임워크는 답변 수준 보상과 완성 수준 보상을 결합하여 기존 RLIF 방법의 문제점, 즉 보상 해킹과 엔트로피 콜랩스를 해결해요.
클러스터 투표 기반 답변 수준 보상과 토큰별 자기 확신 기반 완성 수준 보상을 활용하며, GDPO 기반 정규화를 통해 보상 규모 불균형을 줄여요.
수학적 추론과 코드 생성 벤치마크에서 기존 비지도 RL 방법보다 안정적이고 강력한 성능을 보이며, 지도 RLVR 방법과 유사한 수준의 성능을 달성했어요.