Pulse · AI 뉴스

강화 학습 환경 변화의 원인 분류 체계

arXiv cs.AI · 2026-06-16

연구진은 강화 학습(RL) 시스템이 환경 변화에 취약해지는 현상, 즉 데이터 분포 변화의 원인을 분석하는 분류 체계를 개발했어요.

부분 관측 마르코프 결정 과정(POMDP)을 활용해 상태 분포, 관측 과정, 정책, 보상, 환경 변화 등 요소를 분해하여 내부·에이전트 주도·외부 환경 주도 변화로 구분했어요.

이 체계는 ID/OOD 일반화와 비정상 환경 설정을 통합하며, 성능 저하 및 복구 지표를 활용해 변화의 영향력을 측정하는 평가 프레임워크도 제시했어요.

##강화학습##RL##분포변화##POMDP
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기