연구진은 Grokking과 Double Descent 현상의 원인을 representation learning과 readout calibration의 상대적 속도 변화로 분석했어요.
Representation-readout 분해를 통해 Grokking 발생 시 readout가 학습 편향되어 있고, representation learning은 점진적이지만 부재하지 않다는 것을 확인했어요.
본 연구는 학습 동역학을 이해하고 해석 가능성을 높이기 위한 top-down 프레임워크인 representation-readout 분해를 제시하고, spurious generalization과 genuine generalization을 구별하는 진단 지표를 제공해요.