연구진은 LLM이 다양한 환경에 적응하고 AlphaEvolve와 같은 추론 검색 절차에서 작동하도록 일반화해야 한다고 제안했어요. Vector Policy Optimization (VPO)는 LLM이 다양한 다운스트림 보상 함수를 예측하고 다양한 솔루션을 생성하도록 훈련하는 RL 알고리즘이에요. 4가지 작업에서 VPO는 테스트 시간 검색에서 가장 강력한 스칼라 RL 기준을 능가하며, 검색 예산이 증가함에 따라 격차가 더 벌어졌어요.