Pulse · AI 뉴스

정답 없이 강화 학습으로 LLM 성능 향상 가능: RiveR 프레임워크

Qwen · 2026-06-26

연구진이 정답 없이 점수 기반 최적화 작업을 활용해 LLM을 학습시키는 RiveR 프레임워크를 공개했어요.

RiveR은 점수 크기 불균형과 빈번한 부정적 결과 샘플링 문제를 해결하기 위해 인스턴스별 비교를 활용한 보정된 보상 형성을 사용해요.

AtCoder Heuristic Contest, ALE-Bench, LiveCodeBench, USACO 등 다양한 환경에서 테스트 결과 Qwen3-8B와 GLM-Z1-9B-0414 모델의 성능을 각각 8.9%와 9.4% 향상시켰어요.

RiveR은 정답 없이 점수 기반 작업만으로 학습했음에도 LiveCodeBench와 USACO와 같은 정확한 솔루션 벤치마크에서도 평균 2.4%와 3.5%의 성능 향상을 이뤄냈어요.

##강화학습##LLM##RiveR##코딩

매일 핵심 AI 소식을 한국어로, 빠르게