연구진은 훈련 과정에서 레이어별 학습 품질을 진단하는 피일링 프레임워크를 제안했습니다. 이 프레임워크는 각 트랜스포머 레이어를 훈련된 모델의 중간 표현에 맞게 로컬 최적화합니다. 비나리화 및 양자화 설정에서도 효과적인 분석이 가능하며, 훈련 손실만으로는 드러나지 않는 최적화 기회를 보여줍니다.
연구 결과, 레이어별 참조 경계는 훈련 과정의 다양한 단계에서 훈련된 모델과 유사하거나 능가하는 성능을 보였습니다. 이는 기존의 집계 손실 곡선으로는 파악하기 어려운 비효율성을 드러냅니다.
이 프레임워크는 훈련 역학이 특히 취약한 양자화 설정에서도 효과적이며, 명백한 수렴과 효과적인 최적성 간의 차이를 명확히 보여줍니다.