연구진은 복잡한 문제 해결 과정에서 부분 점수 제공을 위해, 체계적인 평가 기준(rubric)을 활용하고 LLM 판사를 통해 다각적인 평가를 수행하는 강화 학습(RL) 프레임워크인 'rubric-grounded RL'을 제안했습니다.
OSTI에서 수집한 약 10만 건의 과학 기술 문서를 기반으로 평가 기준을 도출하고, Llama-3.1-8B-Instruct 모델을 Group Relative Policy Optimization(GRPO) 방식으로 학습하여, 새로운 평가 기준에 대한 성능을 71.7% 달성했습니다.
GRPO 방식으로 학습된 모델은 학습에 사용되지 않은 GSM8K, MATH, GPQA Main, GPQA Diamond 등 4가지 추론 벤치마크에서도 기존 모델 대비 성능 향상을 보이며, 일반화된 추론 능력 향상 가능성을 입증했습니다.