대형 언어 모델(LLM)의 배포 비용을 줄이기 위해 극단적인 저비트 양자화가 시도되고 있습니다. 연구 결과, 극단적으로 양자화된 LLM은 수치 정밀도 손실 외에도 smoothness (부드러움) 저하를 겪습니다. smoothness를 보존하는 원칙을 적용하여 양자화 성능을 개선하고, 향후 극단적인 양자화 방법 설계 시 smoothness 보존을 고려해야 함을 강조합니다.