Pulse · AI 뉴스

XFP: LLM 추론을 위한 품질 기반 적응형 코드북 양자화

XFP · 2026-05-14

연구진은 LLM 추론을 위한 새로운 동적 가중치 양자화 기법인 XFP를 공개했습니다. XFP는 기존 방식과 달리 연산자가 재구성 품질 기준을 설정하면 코드북 크기, 이상치 예산, 패킹을 자동으로 결정합니다.

XFP는 Qwen3.5-122B 모델에서 Marlin INT4보다 49% 빠른 속도를 달성했으며, 94.49%의 GSM8K 정확도를 유지합니다.

메모리 제약이 있는 모델의 경우 H-Process를 통해 모델을 메모리에 맞추고, 품질 저하 없이 작동하도록 하는 방법을 제시하며, Qwen3.5-397B 모델에서 100.9 tok/s의 성능을 보였습니다.

##LLM##양자화##추론

매일 핵심 AI 소식을 한국어로, 빠르게