Pulse · AI 뉴스

의사 결정 지점에서의 샘플링: 추론 능력 향상

OpenAI · 2026-05-29

연구진이 강화 학습 없이도 기존 모델의 분포를 활용해 추론 능력을 낼 수 있음을 확인했어요.

새로운 알고리즘(Entropy-Cut Metropolis-Hastings)은 다음 토큰의 엔트로피를 활용해 핵심 의사 결정 지점을 파악하고 재샘플링해요.

MATH500, HumanEval, GPQA Diamond, AIME26 데이터셋에서 기존 모델과 강화 학습 모델보다 성능이 향상됐어요.

엔트로피 점프가 의사 결정 지점을 나타내는 유용한 지표이며, 추론 과정의 의사 결정 횟수에 비례하는 방식으로 작동하는 것을 증명했어요.

##추론##샘플링##엔트로피##강화학습##의사결정

매일 핵심 AI 소식을 한국어로, 빠르게