Pulse · AI 뉴스

텍스트-이미지 모델의 강화 학습 기반 추가 훈련 시 슈퍼 선형 어드밴티지 셰이핑

SLAS · 2026-05-12

연구진은 강화 학습 기반 텍스트-이미지 모델 추가 훈련 시 발생하는 보상 해킹 문제를 해결하기 위해 슈퍼 선형 어드밴티지 셰이핑(SLAS) 기법을 제안했습니다.

SLAS는 정보 기하학적 관점에서 정책 업데이트를 재검토하여 어드밴티지 의존적 가중치를 적용한 Fisher-Rao 정보 메트릭을 확장하고, 정책 공간을 재구성합니다.

실험 결과, SLAS는 다양한 백본과 벤치마크에서 DanceGRPO를 능가하는 성능을 보였으며, 더 빠른 훈련 속도와 향상된 성능을 달성했습니다.

##강화학습##텍스트이미지##SLAS##모델훈련
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기