Pulse · AI 뉴스

강건한 루브릭 보상으로 강화 학습

Qwen · 2026-05-29

연구진은 다중 기준 감독이 필요한 시각-언어 작업에 효과적인 강화 학습 방법인 RLR³을 제안했어요. RLR³은 루브릭을 활용해 기준 수준 검증을 수행하며, LLM 추출기 및 판사를 활용해 검증 가능/불가능한 기준을 처리해요. 최소 노출 전략과 계층적 집계를 통해 정확한 점수와 과도한 점수 포화 문제를 해결했어요.

Qwen3-VL-30B-A3B 모델을 활용해 15개 벤치마크에서 RLVR보다 4.7점 향상된 성능을 보였어요. 검증된 검증 방법과 최소 노출 전략으로 오탐 위험을 줄였어요.

RLR³은 RLVR에서 작업 수준 검증을 기준 수준 검증으로 확장하며, 시각-언어 작업의 다중 기준 감독 문제를 해결하는 데 기여해요.

##강화학습##루브릭##Qwen3##RLVR
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기