Pulse · AI 뉴스

OPID: 온폴리시 기술 증류를 활용한 에이전트 강화 학습

OPID · 2026-06-25

연구진은 에이전트 강화 학습의 희소 보상 문제를 해결하기 위해 OPID(On-Policy Skill Distillation) 프레임워크를 제안했어요.

OPID는 완료된 온폴리시 트래커토리에서 기술 감독 신호를 추출하여 에피소드 레벨과 스텝 레벨의 계층적 기술로 트래커리 히스토리넛을 표현해요.

실험 결과, OPID는 ALFWorld, WebShop, Search-based QA 환경에서 기존 방법 대비 에이전트 성능, 샘플 효율성, 안정성을 향상시키는 것을 확인했어요.

##강화학습##에이전트##기술증류##OPID
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기