연구진이 온-정책 증류 프레임워크인 OPD-Evolver를 공개했어요. 이 프레임워크는 에이전트가 스스로 경험을 선택하고 활용하며 지식을 재사용할 수 있도록 돕습니다. OPD-Evolver는 다중 도메인 벤치마크에서 ReasoningBank보다 최대 11.5%, Skill0보다 약 5.8% 성능을 향상시켰어요.
OPD-Evolver는 빠른 루프에서 4단계 메모리 계층을 활용해 경험을 빠르게 진화시키고, 느린 루프에서는 메모리 속성을 증류하여 배포 가능한 정책을 만듭니다. 이 방식은 고가치 경험을 내면화하고 메모리 관리를 가능하게 합니다.
OPD-Evolver-9B는 Qwen3.5-397B-A17B, Step-3.5-Flash와 같은 거대 모델에 도전하며, 메모리 기반 에이전트의 한계를 넘어선 진정한 에이전트 진화 가능성을 보여줍니다.