연구진은 강화 학습에서 보상 기반 탐색의 어려움을 해결하기 위해 pass@K, max@K 같은 추론 목표를 직접 최적화하는 방법을 연구했어요. 기존 정책 기울기 추정 방식의 관계를 명확히 하기 위해 기준선 설계와 이점 중심화 연구를 진행했어요. 연구 결과, 기존 방법은 편향되지 않은 정책 기울기를 제공하지만 이점을 중심화하지 못하는 한계가 있었어요.
Leave-Two-Out 기준선을 도입하여 정책 기울기 편향성을 유지하면서 실현 가능한 배치 이점을 정확하게 중심화하는 MaxPO 방법을 개발했어요. MaxPO는 효율적인 이차 시간 구현을 제공하며 LLM 사후 훈련을 위한 그룹 기반 RL에 자연스럽게 통합돼요.
연구진은 max@K의 표준 유한 배치 이점을 유도하여 기존 이점 추정 방식에 대한 통일된 관점을 제시하고, L2O 기준선이 기울기 분산을 줄이고 다른 방식보다 성능이 우수함을 실험적으로 확인했어요.