Cloudflare는 LLM의 크기를 줄이는 손실 없는 압축 시스템 'Unweight'를 오픈소스했습니다. Unweight는 LLM의 정확도를 유지하면서 15~22%까지 모델 크기를 줄이며, Meta의 Llama-3.1-8B 모델에서 약 3GB의 VRAM을 절약합니다. Cloudflare는 GitHub에 GPU 커널을 공개하고 기술 논문을 발표했으며, 향후 어텐션 가중치 압축도 지원할 계획입니다.