연구진은 단일 도메인 RL 훈련이 다른 도메인 성능을 저하시키는 현상에 대한 새로운 이론적 설명을 제시했어요. 이들은 도메인 간 간섭이 전역 기울기 충돌로 설명될 수 없으며, 오히려 국소적 교란 모델에 의해 발생하는 이차 손상에 기인한다고 밝혔어요. 수학-코드-질의응답-창작 쓰기 도메인 순서로 훈련했을 때, 짧은 수학 도메인 재훈련(refresh)을 통해 수학 성능을 복구하고 다른 도메인 성능을 유지하는 데 성공했어요.