최첨단 모델들은 작업-보상 기반 강화 학습(RL)을 훈련 파이프라인에 통합하면서 순수한 추론 모델에서 정교한 에이전트로 진화했어요.
분포 선명화와 작업-보상 기반 학습을 비교 분석한 결과, 분포 선명화는 근본적인 불안정성을 가지고 있으며, 최적의 결과를 얻기 어려워요.
Llama-3.2-3B-Instruct, Qwen2.5-3B-Instruct, Qwen3-4B-Instruct-2507 모델을 활용한 실험 결과, 작업 기반 보상 신호 통합이 성능 향상에 더 효과적이었어요.