Pulse · AI 뉴스

코드 추론을 위한 Coordinated Pass@K 정책 최적화: 더 넓은 범위의 탐색

Qwen · 2026-05-26

연구진은 코드 생성 시 반복 샘플링의 비효율성을 해결하기 위해 Coordinated Pass@K Policy Optimization (CPPO)를 제안했어요. CPPO는 여러 전략을 동시에 탐색하여 중복된 추론 경로를 줄이고, 경쟁 프로그래밍 환경에서 효율성을 높여요.

CPPO는 planner가 $K=4$개의 전략을 제시하고, shared solver가 각 전략에 대한 해결책을 시도하는 방식으로 작동하며, 유효한 전략 조합에 대한 planner reward를 부여해요.

APPS, CodeContests, LiveCodeBench-v6 벤치마크에서 CPPO는 기존 방식 대비 pass@$4$ 성능을 향상시켰으며, Qwen3.5-9B 모델에서 LiveCodeBench-v6에서 최대 0.16의 성능 향상을 기록했어요.

##코드추론##정책최적화##인공지능##Qwen3.5
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기