연구진은 강화 학습 기반 LLM 훈련 방식인 RLVR의 그룹 기반 정책 경사법이 목표 분포에 대한 투영이라는 기하학적 구조를 공유한다는 사실을 밝혀냈습니다.
새로운 최적화 방법인 Listwise Policy Optimization(LPO)은 목표를 명시적으로 투영하여 기존 방식의 문제점을 해결하고, 목록 기반 목표에 대한 단조로운 개선을 가능하게 합니다.
다양한 추론 작업과 LLM 백본에서 LPO는 기존 방식보다 성능이 향상되었으며, 최적화 안정성과 응답 다양성을 유지했습니다.