연구진은 강화 학습(RL) 시스템이 환경 변화에 취약해지는 현상, 즉 데이터 분포 변화의 원인을 분석하는 분류 체계를 개발했어요.
부분 관측 마르코프 결정 과정(POMDP)을 활용해 상태 분포, 관측 과정, 정책, 보상, 환경 변화 등 요소를 분해하여 내부·에이전트 주도·외부 환경 주도 변화로 구분했어요.
이 체계는 ID/OOD 일반화와 비정상 환경 설정을 통합하며, 성능 저하 및 복구 지표를 활용해 변화의 영향력을 측정하는 평가 프레임워크도 제시했어요.