연구진은 다중 기준 감독이 필요한 시각-언어 작업에 효과적인 강화 학습 방법인 RLR³을 제안했어요. RLR³은 루브릭을 활용해 기준 수준 검증을 수행하며, LLM 추출기 및 판사를 활용해 검증 가능/불가능한 기준을 처리해요. 최소 노출 전략과 계층적 집계를 통해 정확한 점수와 과도한 점수 포화 문제를 해결했어요.
Qwen3-VL-30B-A3B 모델을 활용해 15개 벤치마크에서 RLVR보다 4.7점 향상된 성능을 보였어요. 검증된 검증 방법과 최소 노출 전략으로 오탐 위험을 줄였어요.
RLR³은 RLVR에서 작업 수준 검증을 기준 수준 검증으로 확장하며, 시각-언어 작업의 다중 기준 감독 문제를 해결하는 데 기여해요.