연구진은 잠재적 추론의 불안정성 문제를 해결하기 위해 Group Relative Policy Optimization (GRPO)을 적용하는 Latent-GRPO라는 새로운 방법을 제안했어요.
Latent-GRPO는 잠재적 추론 과정에서 발생하는 세 가지 주요 병목 현상(내부 잠재적 매니폴드 부재, 탐색-최적화 불일치, 잠재적 혼합 비닫힘)을 해결하기 위해 설계되었어요.
Latent-GRPO는 다양한 벤치마크에서 기존 방법보다 성능을 향상시키며, 더 짧은 추론 체인을 사용하면서도 더 높은 Pass@1 점수를 달성했어요.