연구진이 LLM FP4 사전 훈련 시 E2M1 데이터 요소 기반 방식의 축소 편향 문제를 지적했어요. 이 편향은 계층별로 곱셈적으로 누적되고 RHT에 의해 증폭되어 훈련 불안정을 야기해요. 이에 대응하여 연구진은 모든 훈련 GEMM에 RHT를 적용하고 dY에만 확률적 반올림을 제한하는 균일 4비트 훈련 레시피인 UFP4를 제안했어요.
UFP4는 Dense 1.5B, MoE 7.9B, MoE 124B 모델의 장기 사전 훈련에서 E2M1 기반 방식보다 BF16 상대 손실 저하가 적어요. 연구 결과는 향후 가속기가 E1M2/INT4 스타일의 균일 4비트 그리드를 우선 지원해야 함을 시사해요.
연구진은 축소 편향이 기하학적 비대칭으로 인해 발생하며, 균일 그리드(E1M2/INT4)는 이 오류를 우회하고 RHT의 개선된 버킷 활용률을 더 잘 활용한다고 설명해요.