Pulse · AI 뉴스

ResRL: 부정 샘플 투영 Residual 강화 학습으로 LLM 추론 능력 향상

ResRL · 2026-05-01

ResRL은 LLM의 추론 능력을 향상시키면서도 다양성을 유지하기 위해 부정 샘플 투영 Residual 강화 학습을 제안합니다.

Lazy Likelihood Displacement(LLD)와 긍정/부정 헤드-그래디언트 간섭을 연결하고, 보수적인 어드밴티지 재가중을 위한 단일 포워드 프록시를 도출했습니다.

ResRL은 수학, 코드, 에이전트 작업, 함수 호출 등 12개 벤치마크에서 기존 방식보다 뛰어난 성능을 보였습니다.

##강화학습##LLM##추론##ResRL
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기