Pulse · AI 뉴스

LLM FP4 사전 훈련 시 축소 편향 재고: 기하학적 원인, 체계적 영향, UFP4 레시피

UFP4 · 2026-06-18

연구진이 LLM FP4 사전 훈련 시 E2M1 데이터 요소 기반 방식의 축소 편향 문제를 지적했어요. 이 편향은 계층별로 곱셈적으로 누적되고 RHT에 의해 증폭되어 훈련 불안정을 야기해요. 이에 대응하여 연구진은 모든 훈련 GEMM에 RHT를 적용하고 dY에만 스토캐스틱 라운딩을 제한하는 균일 4비트 훈련 레시피인 UFP4를 제안했어요.

UFP4는 Dense 1.5B, MoE 7.9B, MoE 124B 모델의 장기 사전 훈련에서 E2M1 기반 방식보다 BF16 상대 손실 저하가 적어요. 연구 결과는 향후 가속기가 E1M2/INT4 스타일의 균일 4비트 그리드를 우선 지원해야 함을 시사해요.

연구진은 축소 편향의 기하학적 원인과 체계적 영향을 분석하고, 이를 해결하기 위한 UFP4 레시피를 제시하여 LLM FP4 사전 훈련의 효율성과 안정성을 높이는 데 기여할 것으로 기대돼요.

##LLM##FP4##사전훈련##UFP4##Quantization

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기