연구진은 텍스트-이미지 생성 모델에서 다양한 보상 모델에 대한 강력한 정렬을 달성하는 것이 어렵다는 문제를 지적했어요.
새로운 Pareto Frontier-Guided Optimal Transport (PG-OT) 프레임워크를 제안하여, 프롬프트별 패레토 프론티어를 구축하고 분포 인지 최적 수송을 통해 지배적인 샘플을 매핑해요.
Joint Domination Rate (JDR) 및 Joint Collapse Rate (JCR)를 새로운 지표로 도입하여 다중 보상 시너지 및 보상 해킹을 정량적으로 평가하고, 기존 방식 대비 11% 성능 향상을 확인했어요.