Pulse · AI 뉴스

LLM 추론 성능 향상을 위한 경험 증강 정책 최적화

Qwen · 2026-06-30

연구진이 LLM 추론 능력 향상을 위한 새로운 강화 학습 방법 EAPO를 제안했어요. 기존 RLVR 방식의 샘플링 비용 문제와 정책 불일치 문제를 해결하는 데 목표를 두고 있어요. EAPO는 이전 RL 최적화 정책을 활용해 경험을 정책에 맞춰 조정하고, 중요한 의사 결정 시점에 경험을 주입하는 방식이에요.

Qwen-2.5-math 7b와 Qwen-3-8B 모델을 활용한 실험에서 기존 RLVR 방식보다 추론 성능이 향상된 것을 확인했어요. EAPO는 정책 변화에 맞춰 경험을 선택적으로 주입하고 중요 샘플링 방식을 적용해 안정적인 학습을 지원해요.

EAPO는 기존 RLVR 방식의 한계를 극복하고 LLM의 추론 능력을 효율적으로 향상시키는 데 기여할 것으로 기대돼요.

##LLM##강화학습##RLVR##EAPO##Qwen
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기