연구진은 LLM의 코드 추론 능력 향상을 위해 일관성을 고려한 강화 학습 프레임워크 CodeThinker를 제안했어요.
CodeThinker는 단계별 추론 과정을 반영하는 학습 데이터 합성, 동적 빔 샘플링 전략, 일관성 보상 메커니즘을 핵심 구성 요소로 갖춰요.
Qwen2-Coder-7B-Instruct 모델에서 기존 최고 성능 모델 대비 정확도가 4.3% 향상되었으며, 수학 및 코드 추론 관련 17개 프로그래밍 언어에서 평균 5.33%의 정확도 향상을 보였어요.