연구에 따르면, 기존의 연속 학습 방법에서 Adam을 백엔드로 사용하는 그래디언트 수정 방식에 숨겨진 실패 요인이 존재했어요. 고성능 환경에서 공유 라우팅 기반의 기존 방법들은 잊힘 현상에 가까운 성능을 보였지만, 적응적 분리 라우팅은 이를 개선했어요. 연구진은 Adam의 second-moment 경로에서 발생하는 문제점을 분석하고, 수정된 그래디언트를 첫 번째 모멘트에만 연결하는 방식으로 해결책을 제시했어요.