Pulse · AI 뉴스

분포 인식 보상: LLM 회귀를 위한 예측 분포 기반 강화 학습

arXiv cs.CL · 2026-05-20

연구진은 LLM 회귀 작업에서 정확한 예측뿐 아니라 적절한 분포를 생성하도록 하는 새로운 강화 학습 방법인 '분포 인식 보상(Distribution-Aware Reward)'을 제안했어요.

이 방법은 여러 개의 예측 샘플을 경험적 예측 분포로 취급하고, 연속 순위 확률 점수(Continuous Ranked Probability Score)를 활용해 정확하고 분산된 예측을 보상해요.

Gaussian 혼합 작업, 코드 성능 예측, 분자 속성 예측 등 다양한 작업에서 기존 방식보다 성능이 향상되었으며, 특히 KBSS에서 스피어만 상관관계 점수가 6점 개선되었어요.

##LLM##강화학습##회귀##분포모델링##MoleculeNet
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기