연구자가 PPO(Proximal Policy Optimization)에 다중 시간 척도 장점을 통합하는 과정에서 정책 붕괴 현상을 겪었습니다. 문제의 원인은 '대리 목적 함수 해킹'과 '시간적 불확실성의 역설'로 분석되었으며, 이는 최적화 과정의 병목 현상을 야기했습니다. 연구자는 비평가(Critic) 측면에서 다중 시간 척도 예측을 유지하고, 행위자(Actor)를 분리하여 순수한 장기 이점을 활용하는 해결책을 제시했습니다.