연구진은 LLM 에이전트의 단계별 평가를 위한 보상 모델 구축의 어려움을 지적했어요. 기존 강화 학습(RL) 후처리가 효과적인 단계별 점수를 얻는 데 필요한 요소를 이미 갖추고 있다고 밝혔어요. '발전적 이점'이라는 개념을 통해 RL 정책과 참조 정책 간의 확률 비율을 활용해 최적의 이점 함수를 복구할 수 있다고 설명했어요.
연구 결과, 테스트 시간 확장, 불확실성 정량화, 오류 귀속 등 다양한 애플리케이션에서 기존 신뢰도 기반 방법보다 우수한 성능을 보였어요. 특히, 작업별 훈련 없이도 전용 훈련 보상 모델을 능가하는 결과를 보여줬어요.
연구진은 발전적 이점의 특징에 대한 심층 분석을 통해 실제 에이전트 시스템에 적용할 수 있는 실용적인 지침을 제공했어요.