Pulse · AI 뉴스

논리적 추론 능력 향상을 위한 체계적인 평가 기준 기반 강화 학습 연구

Llama · 2026-05-09

연구진은 복잡한 문제 해결 과정에서 부분 점수 제공을 위해, 체계적인 평가 기준(rubric)을 활용하고 LLM 판사를 통해 다각적인 평가를 수행하는 강화 학습(RL) 프레임워크인 'rubric-grounded RL'을 제안했습니다.

OSTI에서 수집한 약 10만 건의 과학 기술 문서를 기반으로 평가 기준을 도출하고, Llama-3.1-8B-Instruct 모델을 Group Relative Policy Optimization(GRPO) 방식으로 학습하여, 새로운 평가 기준에 대한 성능을 71.7% 달성했습니다.

GRPO 방식으로 학습된 모델은 학습에 사용되지 않은 GSM8K, MATH, GPQA Main, GPQA Diamond 등 4가지 추론 벤치마크에서도 기존 모델 대비 성능 향상을 보이며, 일반화된 추론 능력 향상 가능성을 입증했습니다.

##강화학습##LLM##추론##Llama3
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기