연구진은 LLM 회귀 작업에서 정확한 예측뿐 아니라 적절한 분포를 생성하도록 하는 새로운 강화 학습 방법인 '분포 인식 보상(Distribution-Aware Reward)'을 제안했어요.
이 방법은 여러 개의 예측 샘플을 경험적 예측 분포로 취급하고, 연속 순위 확률 점수(Continuous Ranked Probability Score)를 활용해 정확하고 분산된 예측을 보상해요.
Gaussian 혼합 작업, 코드 성능 예측, 분자 속성 예측 등 다양한 작업에서 기존 방식보다 성능이 향상되었으며, 특히 KBSS에서 스피어만 상관관계 점수가 6점 개선되었어요.