Pulse · AI 뉴스

신뢰하는 배치, 온/오프 정책: RL 사후 훈련을 위한 적응형 정책 최적화

FeynRL · 2026-05-13

연구진은 강화 학습의 불안정성을 해결하기 위해 새로운 배치 적응형 목표 함수를 제시했습니다. 이 방법은 정책 비율 분포를 기반으로 업데이트를 조정하여 신뢰 영역과 오프 정책 문제를 동시에 해결합니다.

기존 방법은 하이퍼파라미터를 사용하여 불안정성을 관리했지만, 새로운 방법은 이러한 하이퍼파라미터를 제거하고 정책 비율 통계치를 활용하여 자동으로 조정합니다.

실험 결과, 새로운 방법은 기존 튜닝된 기준 성능과 일치하거나 능가하며, 새로운 목표 함수 하이퍼파라미터를 도입하지 않고 기존 하이퍼파라미터를 제거했습니다.

##강화학습##정책최적화##FeynRL
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기