연구진은 강화 학습 기반 텍스트-이미지 모델 추가 훈련 시 발생하는 보상 해킹 문제를 해결하기 위해 슈퍼 선형 어드밴티지 셰이핑(SLAS) 기법을 제안했습니다.
SLAS는 정보 기하학적 관점에서 정책 업데이트를 재검토하여 어드밴티지 의존적 가중치를 적용한 Fisher-Rao 정보 메트릭을 확장하고, 정책 공간을 재구성합니다.
실험 결과, SLAS는 다양한 백본과 벤치마크에서 DanceGRPO를 능가하는 성능을 보였으며, 더 빠른 훈련 속도와 향상된 성능을 달성했습니다.