연구진이 온-정책 자기 증류 프레임워크인 OPD-Evolver를 공개했어요. 이 프레임워크는 에이전트가 스스로 경험을 선택하고 지식을 재사용하며 메모리 저장소를 관리하는 능력을 키워요.
OPD-Evolver는 빠른 루프와 느린 루프로 구성되어 있으며, 빠른 루프는 4단계 메모리 계층을 활용해 경험을 빠르게 진화시키고, 느린 루프는 메모리 속성을 증류해 배포 가능한 정책을 만들어요.
다중 도메인 벤치마크에서 OPD-Evolver는 ReasoningBank보다 최대 11.5%, Skill0보다 약 5.8%의 성능 향상을 보여줬으며, Qwen3.5-397B-A17B와 같은 거대 모델에 도전할 수 있는 잠재력을 보여줬어요.