연구진은 LLM의 잠재적 추론을 활용하기 위해 Gumbel-Softmax를 활용하여 제어 가능한 확률성을 주입하는 LEPO 프레임워크를 제안했어요. LEPO는 강화 학습(RL)을 통해 연속적인 잠재 표현에 직접 적용하여 다양한 추론 경로를 탐색하고 최적화하는 새로운 방법이에요. 실험 결과, LEPO는 기존 RL 방법보다 잠재적 및 이산적 추론 모두에서 뛰어난 성능을 보여주었어요.