연구진은 코드 생성 시 반복 샘플링의 비효율성을 해결하기 위해 Coordinated Pass@K Policy Optimization (CPPO)를 제안했어요. CPPO는 여러 전략을 동시에 탐색하여 중복된 추론 경로를 줄이고, 경쟁 프로그래밍 환경에서 효율성을 높여요.
CPPO는 planner가 $K=4$개의 전략을 제시하고, shared solver가 각 전략에 대한 해결책을 시도하는 방식으로 작동하며, 유효한 전략 조합에 대한 planner reward를 부여해요.
APPS, CodeContests, LiveCodeBench-v6 벤치마크에서 CPPO는 기존 방식 대비 pass@$4$ 성능을 향상시켰으며, Qwen3.5-9B 모델에서 LiveCodeBench-v6에서 최대 0.16의 성능 향상을 기록했어요.