연구진은 LLM 추론을 위한 새로운 동적 가중치 양자화 기법인 XFP를 공개했습니다. XFP는 기존 방식과 달리 연산자가 재구성 품질 기준을 설정하면 코드북 크기, 이상치 예산, 패킹을 자동으로 결정합니다.
XFP는 Qwen3.5-122B 모델에서 Marlin INT4보다 49% 빠른 속도를 달성했으며, 94.49%의 GSM8K 정확도를 유지합니다.
메모리 제약이 있는 모델의 경우 H-Process를 통해 모델을 메모리에 맞추고, 품질 저하 없이 작동하도록 하는 방법을 제시하며, Qwen3.5-397B 모델에서 100.9 tok/s의 성능을 보였습니다.