Pulse · AI 뉴스

다중 목표 및 혼합 보상 강화 학습을 위한 보상 상관 제거 정책 최적화

LongCat-Flash · 2026-05-14

연구진은 복잡한 강화 학습 환경에서 발생하는 문제들을 해결하기 위해 RDPO(Reward-Decorrelated Policy Optimization)라는 새로운 방법론을 제시했어요.

RDPO는 Magnitude-Aware Quantile 정규화와 Mahalanobis whitening을 활용하여 이산형, 분수형, 연속형 보상을 안정화하고 보상 차원 간의 상관 관계를 줄여줘요.

LongCat-Flash 모델에 RDPO를 적용한 결과, 지시 따르기, 글쓰기 품질, 어려운 프롬프트에 대한 강건성이 향상되었고, 추론 및 코딩 평가에서도 경쟁력을 유지했어요.

##강화학습##보상##최적화##RDPO##LongCat-Flash

매일 핵심 AI 소식을 한국어로, 빠르게