Pulse · AI 뉴스

AdaGamma: 상태 의존적 할인으로 강화 학습 시간 적응성 향상

AdaGamma · 2026-05-07

AdaGamma는 강화 학습에서 상태에 따라 할인율을 조절하는 새로운 방법입니다. 기존 방식의 불안정성을 해결하기 위해 return-consistency 목표를 도입하여 백업 구조를 규제합니다. 실험 결과, SAC와 PPO에 통합하여 연속 제어 벤치마크에서 성능을 향상시켰고, JD 물류 플랫폼의 A/B 테스트에서도 통계적으로 유의미한 효과를 보였습니다.

AdaGamma는 상태 의존적 할인 방식이 백업 구조를 안정화하고, 이론적으로도 잘 작동하는 것을 분석했습니다. Bellman 연산자를 분석하여 적절한 조건 하에서 기본적인 잘 작동하는 특성을 확인했습니다.

연구진은 AdaGamma가 상태에 따른 할인율을 학습하고 return-consistency 목표를 통해 잘못된 목표 조작을 방지하여 효과적으로 사용할 수 있음을 시사합니다.

##강화학습##AdaGamma##할인율##시간적응

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기