Pulse · AI 뉴스

LLM의 잠재적 추론 강화: LEPO 프레임워크 소개

LEPO · 2026-04-20

연구진은 LLM의 잠재적 추론을 활용하기 위해 Gumbel-Softmax를 활용하여 제어 가능한 확률성을 주입하는 LEPO 프레임워크를 제안했어요.

LEPO는 강화 학습(RL)을 통해 연속적인 잠재 표현에 직접 적용하여 다양한 추론 경로를 탐색하고 최적화하는 새로운 방법이에요.

실험 결과, LEPO는 기존 RL 방법보다 잠재적 및 이산적 추론 모두에서 뛰어난 성능을 보여주었어요.

##강화학습##잠재추론##LLM
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기