연구진이 LLM 훈련 과정에서 가중치 조건을 안정적으로 유지하는 가중치 파라미터화 방식인 PC (Preconditioning) 레이어를 제안했어요. PC 모듈은 저차 다항식 사전 조건부를 통해 가중치 행렬의 특이값 스펙트럼을 재구성해요. 훈련 후 사전 조건부 가중치는 원래 아키텍처에 통합되어 추론 오버헤드를 발생시키지 않아요.
Llama-1B 사전 훈련에서 AdamW 및 Muon 옵티마이저 모두에 대해 표준 트랜스포머보다 PC 레이어의 장점을 입증했어요. 이론적으로는 각 레이어의 특이값을 균일하게 제한하면 특정 심층 선형 네트워크에서 그래디언트 하강이 전역 최소값에 기하학적으로 수렴한다는 것을 증명했어요.
PC 레이어 관련 코드는 GitHub에서 확인할 수 있어요.