Pulse · AI 뉴스

Latent-GRPO: 잠재적 추론을 위한 그룹 상대적 정책 최적화

arXiv cs.CL · 2026-05-01

연구진은 잠재적 추론의 불안정성 문제를 해결하기 위해 Group Relative Policy Optimization (GRPO)을 적용하는 Latent-GRPO라는 새로운 방법을 제안했어요.

Latent-GRPO는 잠재적 추론 과정에서 발생하는 세 가지 주요 병목 현상(내부 잠재적 매니폴드 부재, 탐색-최적화 불일치, 잠재적 혼합 비닫힘)을 해결하기 위해 설계되었어요.

Latent-GRPO는 다양한 벤치마크에서 기존 방법보다 성능을 향상시키며, 더 짧은 추론 체인을 사용하면서도 더 높은 Pass@1 점수를 달성했어요.

##잠재적추론##강화학습##GRPO##최적화##Latent-GRPO

매일 핵심 AI 소식을 한국어로, 빠르게