연구진은 단일 도메인 RL 훈련이 다른 도메인 성능을 저하시키는 현상에 대한 새로운 이론적 설명을 제시했어요. 연구 결과, 각 도메인 훈련은 작은 규모의 파라미터 편집을 유발하며, 이는 특정 계산 경로를 통해 시너지 효과 또는 충돌을 일으킬 수 있어요. Re-Math 훈련을 통해 수학 능력을 복구하고 다른 도메인 성능을 유지하는 데 성공했으며, 이는 국소적 손상 이론을 뒷받침하는 증거가 되었어요.