연구진은 강화 학습과 검증 가능한 보상(RLVR)의 한계를 극복하기 위해 GraphPO를 제안했어요. GraphPO는 추론 과정을 그래프로 표현하여 중복된 탐색을 줄이고 효율성을 높여요.
기존 방식이 독립적인 응답으로 인해 중복된 추론 단계를 반복하는 문제를 해결하기 위해, GraphPO는 의미적으로 동일한 추론 경로를 병합하여 공유하고 예산을 재분배해요.
GraphPO는 효율성 이점과 정확성 이점을 활용하여 추론 효율성을 높이고, 결과로부터 과정 감독을 유도하며, 기존 방식 대비 성능을 향상시켰어요.
실험 결과, GraphPO는 추론 및 에이전트 검색 벤치마크에서 체인 및 트리 기반 방식보다 우수한 성능을 보였으며, 동일한 토큰 예산 또는 응답 예산으로 더 나은 결과를 얻었어요.