연구진은 검증 가능한 보상(RLVR)을 활용한 LLM 추론 능력 향상 방법론에서, 그룹 레벨에서 보상이 정보가 없을 때 발생하는 문제점을 지적했어요.
Reasoning Arena는 이러한 문제점을 해결하기 위해, 동일한 보상을 받은 그룹의 추적들을 심판 시스템으로 보내 세부적인 선호도를 파악하는 추적 토너먼트를 도입했어요.
새로운 추적은 기존에 생성된 추적들을 기준으로 상대적인 순위를 매기고, Bradley-Terry 모델을 적용하여 확장성 있는 RL 통합을 가능하게 하며, 수학 및 코딩 벤치마크에서 평균 7.6%의 성능 향상을 보여줬어요.