연구진은 복잡한 강화 학습 환경에서 발생하는 문제들을 해결하기 위해 RDPO(Reward-Decorrelated Policy Optimization)라는 새로운 방법론을 제시했어요.
RDPO는 Magnitude-Aware Quantile 정규화와 Mahalanobis whitening을 활용하여 이산형, 분수형, 연속형 보상을 안정화하고 보상 차원 간의 상관 관계를 줄여줘요.
LongCat-Flash 모델에 RDPO를 적용한 결과, 지시 따르기, 글쓰기 품질, 어려운 프롬프트에 대한 강건성이 향상되었고, 추론 및 코딩 평가에서도 경쟁력을 유지했어요.