연구자가 PyTorch, BLAS, CUDA 없이 순수 러스트로 1비트 LLM 엔진을 개발했어요. 이 엔진은 표준 엣지 CPU에서 150+ TPS를 달성하며 350MB 미만의 RAM을 사용해요.
개발자는 TinyLlama, Qwen, TinyLlama Hybrid 모델을 활용하여 1비트 양자화 손실을 보정하고 영어 지능을 100% 유지하는 방법을 시연했어요. 특히 TinyLlama Hybrid 모델은 16배 압축률을 달성했어요.
엔진은 모델 가중치를 1비트 또는 3진법 상태로 압축하고, 메모리 매핑된 바이트 버퍼에 아키텍처 정의를 직접 임베딩하는 방식으로 작동하며, LLaMA 및 Qwen 기반 모델을 지원해요.