DEEPRUBRIC은 증거 기반 보고서의 품질을 평가하는 채점 기준을 생성하는 새로운 프레임워크입니다. 기존 방식의 LLM 기반 채점 기준 생성 방식의 한계를 극복하기 위해, 먼저 평가 목표를 설정하고 이에 맞춰 질문과 채점 기준을 합성합니다. DeepRubric-8B 모델은 9천 개의 질문-채점 기준 지도 데이터셋으로 학습하여 기존 최고 성능 모델과 유사한 성능을 보였지만, RL GPU 시간이 약 13배 단축되었습니다.