연구진은 외부 감독 없이 언어 모델을 훈련하는 SCOPE라는 데이터 없는 자기 학습 프레임워크를 개발했어요.
SCOPE는 도전자가 문맥 기반 작업을 생성하고, 솔버가 검색을 통해 답변하는 두 정책을 공동 진화시키며, 초기 모델의 고정된 복사본이 원본 문서에서 작업별 채점 기준을 작성하고 솔버 응답을 평가해요.
Qwen2.5, Qwen3, OLMo-3 모델에서 SCOPE는 8개의 벤치마크에서 최대 +10.4점의 성능 향상을 보여주며, 9K개의 큐레이션된 프롬프트로 훈련된 GRPO_data와 유사하거나 능가하는 결과를 얻었어요.