최신 추론 모델은 복잡한 문제를 해결하기 위해 체인 오브 소트(CoT)를 활용하며, 테스트 시간 연산량이 증가하고 있어요. 연구진은 모델이 K번까지 문제를 해결하는 시도를 할 수 있는 환경에서, 각 시도가 이전 시도를 기반으로 개선되도록 하는 강화 학습 방법을 연구했어요. 캘리브레이티드 어템프트 레벨(CAL) GRPO를 제안하여 편향되지 않은 그래디언트를 얻고 분산을 줄이는 방법을 제시했어요.