Pulse · AI 뉴스

RubricEM: Rubric 기반 정책 분해를 통한 Meta-RL

RubricEM · 2026-05-12

연구 에이전트 훈련 시, RubricEM은 rubrics를 최종 답변 평가뿐 아니라 정책 실행, 피드백 구조, 에이전트 메모리를 구조화하는 인터페이스로 활용합니다.

RubricEM은 stagewise 정책 분해와 reflection 기반 meta-policy 진화를 결합하여 Stage-Structured GRPO를 통해 rubrics 판단을 활용한 밀도 높은 semantic 피드백을 제공합니다.

RubricEM-8B는 4개의 long-form 연구 벤치마크에서 우수한 성능을 보이며, 기존 오픈 모델을 능가하고 독점적인 deep-research 시스템에 근접하는 성능을 달성했습니다.

##RL##rubric##meta-learning##researchagent##정책분해

매일 핵심 AI 소식을 한국어로, 빠르게