연구 에이전트 훈련 시, RubricEM은 rubrics를 최종 답변 평가뿐 아니라 정책 실행, 피드백 구조, 에이전트 메모리를 구조화하는 인터페이스로 활용합니다.
RubricEM은 stagewise 정책 분해와 reflection 기반 meta-policy 진화를 결합하여 Stage-Structured GRPO를 통해 rubrics 판단을 활용한 밀도 높은 semantic 피드백을 제공합니다.
RubricEM-8B는 4개의 long-form 연구 벤치마크에서 우수한 성능을 보이며, 기존 오픈 모델을 능가하고 독점적인 deep-research 시스템에 근접하는 성능을 달성했습니다.