Pulse · AI 뉴스

Z-Reward: 추론 기반 점수 분포 모델을 활용한 효율적인 보상 모델링

Anthropic · 2026-06-08

앤스로픽이 주관적인 시각적 선호도를 점수 분포로 표현하는 Z-Reward라는 새로운 보상 모델링 프레임워크를 제안했어요.

Z-Reward는 GDSO(Group-wise Direct Score Optimization)를 통해 훈련된 대규모 VLM(교사 모델)과 RISD(Reasoning-Internalized Score Distillation)를 통해 훈련된 소형 VLM(학생 모델)으로 구성돼요.

Z-Reward는 기존 모델보다 인간 선호도 정확도가 높고, 텍스트-이미지 최적화에 사용될 때 인간 선호도 향상에 기여하는 것으로 나타났어요.

##보상모델##VLM##추론##Anthropic
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기