Pulse · AI 뉴스

LLM 과정 점수를 활용한 문제 해결: PRM 훈련 없이 수학적 추론 성능 향상

Qwen · 2026-06-01

연구진은 PRM 훈련 없이도 LLM의 과정 점수를 활용해 수학적 추론 성능을 높이는 Chunk-Level Guided Generation 기법을 제안했어요.

이 기법은 작은 모델이 샘플링한 후보 덩어리들을 큰 LLM이 likelihood를 통해 점수화하여, 오류 전파를 막고 생성 방향을 조절해요.

Contrastive-Guided Selection (CGS) 방식은 작은 모델의 선호도를 고려하여 큰 모델의 선호도를 반영해, 기존 방식보다 최대 28%p 성능 향상을 보여줬어요.

CGS는 PRM guided search와 유사한 수준의 성능을 내면서도 더 짧은 추론 과정을 생성하며, reward model 훈련 없이도 높은 정확도를 달성했어요.

##LLM##추론##기법##Qwen##Llama
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기