Pulse · AI 뉴스

StepOPSD: 단계 인지 온라인 선호도 증류를 통한 에이전트 강화 학습

Qwen · 2026-05-27

연구진은 강화 학습 에이전트의 신용 할당 불일치 문제를 해결하기 위해 StepOPSD라는 새로운 프레임워크를 제시했어요. StepOPSD는 에이전트의 단계를 신용 재분배 단위로 활용하여, 원활한 상호 작용 단위를 유지하면서도 토큰 수준의 더 촘촘한 감독 신호를 제공해요.

ALFWorld 및 Search-QA 환경에서 Qwen3-1.7B 및 Qwen2.5-3B-Instruct 모델을 사용하여 실험한 결과, StepOPSD는 지역적 원인 오류에 민감한 부분 집합에서 최고 또는 두 번째로 좋은 결과를 달성했어요.

연구 결과는 α_clip과 λ_mix라는 두 가지 주요 파라미터 간의 관계를 보여주며, 이는 안정적인 지역 신뢰 영역과 최적의 전역 혼합 강도를 결정하는 데 중요한 역할을 해요.

##강화학습##에이전트##선호도증류##StepOPSD
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기