Pulse · AI 뉴스

OPD-Evolver: 온-정책 증류를 통한 통합 에이전트 진화기 개발

OPD-Evolver · 2026-06-16

연구진이 온-정책 자기 증류 프레임워크인 OPD-Evolver를 공개했어요. 이 프레임워크는 에이전트가 스스로 경험을 선택하고 지식을 재사용하며 메모리 저장소를 관리하는 능력을 키워요.

OPD-Evolver는 빠른 루프와 느린 루프로 구성되어 있으며, 빠른 루프는 4단계 메모리 계층을 활용해 경험을 빠르게 진화시키고, 느린 루프는 메모리 속성을 증류해 배포 가능한 정책을 만들어요.

다중 도메인 벤치마크에서 OPD-Evolver는 ReasoningBank보다 최대 11.5%, Skill0보다 약 5.8%의 성능 향상을 보여줬으며, Qwen3.5-397B-A17B와 같은 거대 모델에 도전할 수 있는 잠재력을 보여줬어요.

##에이전트##메모리##자기진화##온정책##증류

매일 핵심 AI 소식을 한국어로, 빠르게