연구진은 스토리 생성 시 인간의 선호도를 반영하기 어려운 점을 지적하며, 스토리 선호도 평가 벤치마크인 StoryRMB를 새롭게 공개했어요.
기존 보상 모델은 인간이 선호하는 스토리를 선택하는 데 어려움을 겪으며, StoryReward는 StoryRMB에서 최고 성능을 달성했어요.
StoryReward는 10만 개의 스토리 선호도 쌍으로 학습되었으며, 베스트-오브-엔(BoN) 스토리 선택 시 인간 선호도에 더 부합하는 스토리를 선택하는 데 활용될 수 있어요.