Pulse · AI 뉴스

QUBRIC: 강화 학습의 새로운 가능성을 열다 - 쿼리와 루브릭 공동 설계

QUBRIC · 2026-06-03

연구팀은 강화 학습(RL)의 한계를 극복하기 위해 쿼리와 루브릭을 공동 설계하는 QUBRIC 프레임워크를 개발했어요. 기존 방식의 루브릭 최적화는 쿼리 구조에 제약을 받아 어려움이 있었어요.

QUBRIC은 교사 데이터를 활용해 개방형 쿼리를 시나리오 기반으로 재구성하고, 루브릭을 생성하여 GRPO 학습에 필요한 쿼리-루브릭 쌍을 필터링해요.

QUBRIC은 ArenaHard에서 SFT 기준점보다 5.5점 향상되었으며, 법률, 윤리, 내러티브 추론 벤치마크에서 평균 6.3점의 성능 향상을 보여주며 강화 학습의 새로운 가능성을 제시했어요.

##강화학습##루브릭##쿼리##인공지능##연구
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기