연구진이 HPSv3++라는 새로운 보상 모델 프레임워크를 제안했어요. 이는 기존 T2I 모델의 성능 변화를 고려하지 못하는 HPSv3의 한계를 극복하기 위해 개발됐어요.
HPDv3++ 데이터셋을 활용해 다양한 미적 감각을 반영하고, T2I 모델의 능력 수준과 RL 반복 횟수에 따른 신호 조정을 통해 보상 모델의 성능을 향상시켰어요.
HPSv3++은 HPDv3에서 9.8%, GenAI-Bench에서 5.5% 성능 향상을 보였고, T2I RL 훈련 시 GenEval 점수를 개선했어요.
코드와 데이터는 GitHub에서 공개됐으며, 다양한 T2I 모델에 적용 가능성을 보여줬어요.