연구진이 LLM의 자체 진화를 위한 온라인 정책 최적화 프레임워크 DRIFT를 제안했어요. DRIFT는 문제 난이도 라우팅과 리듬 게이팅을 통해 모델의 자체 개선 과정을 조절해요. 특히 ToolUse 벤치마크에서 기존 방법 대비 성능을 크게 향상시켜 새로운 최고 기록을 달성했어요.
DRIFT는 문제 수준에서 모델의 학습 상태를 파악하고 자체 증류 및 강화 학습 신호를 동적으로 할당하며, 토큰 수준에서 정책 업데이트를 개선해 중요한 추론 위치에 집중 탐색해요. 성공 버퍼와 2단계 커리큘럼 학습 전략을 통해 고품질 경험을 보존하고 안정적인 정책 진화를 유도해요.
5개 벤치마크에서 GRPO와 SDPO를 능가하는 성능을 보여줬으며, 평균 점수에서 GRPO보다 9.5%, SDPO보다 7.5% 향상된 79.5%를 기록했어요. ToolUse 벤치마크에서는 정확도가 79.2%로 GRPO보다 13.5%, SDPO보다 10.7% 개선됐어요.