JURY-RL은 인간 레이블 없이 강화 학습을 통해 LLM의 추론 능력을 향상시키는 새로운 프레임워크예요. 모델의 롤아웃 결과로부터 투표를 통해 후보 답변을 제안하고, Lean을 활용해 답변의 유효성을 검증하는 방식으로 작동해요. 수학 데이터 학습 시 JURY-RL은 기존 방식보다 뛰어난 성능을 보이며, 코드 생성 및 일반 벤치마크에서도 경쟁력 있는 결과를 보여줬어요.