연구진은 다양한 테스트 환경과 AlphaEvolve 같은 추론 검색 절차에 적합하도록 LLM을 훈련하는 Vector Policy Optimization (VPO) 알고리즘을 제안했어요. VPO는 벡터 형태의 보상 함수를 활용하여 LLM이 다양한 솔루션을 생성하도록 훈련하여, 기존 LLM의 낮은 엔트로피 문제를 해결해요.
VPO는 GRPO의 대체 알고리즘으로, 코드 생성 시 테스트 케이스별 정확도와 같은 벡터 보상 공간에서 개별 솔루션이 특화되도록 훈련돼요. 4가지 작업에서 VPO는 테스트 시간 검색에서 가장 강력한 스칼라 RL 기준을 능가했어요.
테스트 시간 검색이 표준화됨에 따라, 다양성을 위한 최적화가 기본 후처리 목표가 될 필요가 있을 것으로 보입니다.