연구진은 대규모 추론 모델(LRM)의 내부 작동 방식과 강화 학습(RL)의 불안정성 문제를 해결하기 위해 'Entropy-Gradient Inversion'이라는 새로운 개념을 제시했어요.
Entropy-Gradient Inversion은 토큰 엔트로피와 로짓 그래디언트 간의 역상관 관계를 활용하며, 이는 LRM의 추론 능력을 나타내는 중요한 지표로 활용돼요.
연구진은 이 개념을 바탕으로 CorR-PO라는 새로운 RL 최적화 기법을 개발했고, 다양한 추론 벤치마크에서 기존 방식보다 뛰어난 성능을 보였어요.