Pulse · AI 뉴스

StoryReward: 스토리 생성 시 인간 선호도 반영을 위한 새로운 보상 모델

StoryReward · 2026-05-06

연구진은 스토리 생성 시 인간의 선호도를 반영하기 어려운 점을 지적하며, 스토리 선호도 평가 벤치마크인 StoryRMB를 새롭게 공개했어요.

기존 보상 모델은 인간이 선호하는 스토리를 선택하는 데 어려움을 겪으며, StoryReward는 StoryRMB에서 최고 성능을 달성했어요.

StoryReward는 10만 개의 스토리 선호도 쌍으로 학습되었으며, 베스트-오브-엔(BoN) 스토리 선택 시 인간 선호도에 더 부합하는 스토리를 선택하는 데 활용될 수 있어요.

##스토리생성##보상모델##인공지능
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기