연구진은 확산 모델을 인간 선호도에 맞게 조정하는 데 있어 다각적 평가 기준을 동시에 최적화하는 문제점을 지적하며, MARBLE(Multi-Aspect Reward Balance) 프레임워크를 제안했습니다.
MARBLE는 각 보상에 대한 독립적인 장점 추정기를 유지하고, 이차 계획법 문제를 통해 보상 가중치를 수동으로 조정하지 않고도 정책 경사를 조화롭게 통합합니다.
MARBLE는 SD3.5 Medium에서 5가지 보상 차원을 동시에 개선하고, 훈련 속도는 기존 방식의 0.97배로 향상되었습니다.