Pulse · AI 뉴스

다중 보상 정렬을 위한 패레토 가이드 최적 수송

arXiv cs.CV · 2026-05-13

연구진은 텍스트-이미지 생성 모델에서 다양한 보상 모델에 대한 강력한 정렬을 달성하는 것이 어렵다는 문제를 지적했어요.

새로운 Pareto Frontier-Guided Optimal Transport (PG-OT) 프레임워크를 제안하여, 프롬프트별 패레토 프론티어를 구축하고 분포 인지 최적 수송을 통해 지배적인 샘플을 매핑해요.

Joint Domination Rate (JDR) 및 Joint Collapse Rate (JCR)를 새로운 지표로 도입하여 다중 보상 시너지 및 보상 해킹을 정량적으로 평가하고, 기존 방식 대비 11% 성능 향상을 확인했어요.

##모델출시##최적수송##보상정렬
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기