Pulse · AI 뉴스

CodeThinker: 일관성 기반 강화 학습으로 LLM 코드 추론 능력 향상

CodeThinker · 2026-05-18

연구진은 LLM의 코드 추론 능력 향상을 위해 일관성을 고려한 강화 학습 프레임워크 CodeThinker를 제안했어요.

CodeThinker는 단계별 추론 과정을 반영하는 학습 데이터 합성, 동적 빔 샘플링 전략, 일관성 보상 메커니즘을 핵심 구성 요소로 갖춰요.

Qwen2-Coder-7B-Instruct 모델에서 기존 최고 성능 모델 대비 정확도가 4.3% 향상되었으며, 수학 및 코드 추론 관련 17개 프로그래밍 언어에서 평균 5.33%의 정확도 향상을 보였어요.

##LLM##강화학습##코드추론##CodeThinker

매일 핵심 AI 소식을 한국어로, 빠르게