Pulse · AI 뉴스

LLM 프로세스 점수를 활용한 추론 강화: PRM 훈련 없이 수학적 추론 성능 향상

Qwen · 2026-06-01

연구진은 PRM 훈련 없이도 LLM의 프로세스 점수를 활용하여 수학적 추론 성능을 향상시키는 Chunk-Level Guided Generation 방법을 제안했어요.

이 방법은 작은 모델이 샘플링한 후보 덩어리들을 큰 LLM이 likelihood를 통해 점수화하여 선택하고, 다음 단계로 이어지기 전에 덩어리를 확정하여 오류 전파를 방지해요.

실험 결과, Contrastive-Guided Selection (CGS) 방식이 다수결 방식보다 최대 28%p 성능 향상을 보였으며, PRM guided search와 유사한 성능을 보이면서도 reward model 훈련 없이도 뛰어난 결과를 냈어요.

Chunk-Level Guided Generation은 PRM guided search보다 짧은 추론 과정을 생성하여 효율성을 높였어요.

##LLM##추론##PRM##Qwen##Llama

매일 핵심 AI 소식을 한국어로, 빠르게