Pulse · AI 뉴스

엔트로피 중심점: 테스트 시간 스케일링을 위한 내재적 보상

arXiv cs.CL · 2026-04-29

연구진은 대규모 언어 모델의 테스트 시간 컴퓨팅을 확장하는 효과적인 방법으로 여러 응답을 샘플링하고 최상의 응답을 선택하는 방식을 제안했어요.

고유한 신호(불확실성)를 활용하여 응답 품질을 높이는 '엔트로피 중심점'이라는 새로운 개념을 도입했어요.

수학, 코드 생성, 논리적 추론 등 다양한 작업에서 기존 방법보다 성능이 뛰어나고 모델 크기가 증가함에 따라 안정적인 성능 향상을 보였어요.

##모델출시##보상함수##내재적보상##LLM

매일 핵심 AI 소식을 한국어로, 빠르게