앤스로픽이 주관적인 시각적 선호도를 점수 분포로 표현하는 Z-Reward라는 새로운 보상 모델링 프레임워크를 제안했어요.
Z-Reward는 GDSO(Group-wise Direct Score Optimization)를 통해 훈련된 대규모 VLM(교사 모델)과 RISD(Reasoning-Internalized Score Distillation)를 통해 훈련된 소형 VLM(학생 모델)으로 구성돼요.
Z-Reward는 기존 모델보다 인간 선호도 정확도가 높고, 텍스트-이미지 최적화에 사용될 때 인간 선호도 향상에 기여하는 것으로 나타났어요.