Cloudflare가 LLM 추론 시 메모리 대역폭 병목 현상을 해결하기 위해 모델 가중치를 최대 22% 압축하는 'Unweight' 기술을 개발했어요. Unweight는 지수(exponent)를 허프만 코딩하여 압축하고, GPU 내 공유 메모리에서 실시간으로 압축 해제하여 기존 방식의 단점을 보완했어요. 이 기술은 별도 하드웨어 없이도 GPU당 더 많은 모델을 탑재하고 추론 비용을 절감하여 네트워크 효율성을 높일 수 있어요.