Pulse · AI 뉴스

OPID: 에이전트 강화 학습을 위한 온-정책 기술 증류

OPID · 2026-06-25

연구진이 에이전트 강화 학습의 효율성을 높이는 OPID(On-Policy Skill Distillation) 프레임워크를 제안했어요.

OPID는 완료된 온-정책 경로에서 기술 감독 신호를 추출하여 에피소드 및 단계별 기술로 계층화된 정보를 활용해요.

단계별 기술을 활용한 핵심-우선 라우팅 메커니즘을 통해 기존 정책이 원본 및 기술 증강 컨텍스트 모두에서 동일한 응답을 재평가하도록 유도해요.

ALFWorld, WebShop, Search-based QA 환경에서 OPID는 기존 방식 대비 성능, 샘플 효율성, 안정성 향상을 입증했어요.

##강화학습##에이전트##기술증류##OPID

매일 핵심 AI 소식을 한국어로, 빠르게