Pulse · AI 뉴스

순수 러스트로 구축한 네이티브 1비트 LLM 엔진: 엣지 CPU에서 150+ TPS 및 350MB 메모리 사용량 달성

TinyLlama · 2026-06-05

연구자가 PyTorch, BLAS, CUDA 없이 순수 러스트로 1비트 LLM 엔진을 개발했어요. 이 엔진은 표준 엣지 CPU에서 150+ TPS를 달성하며 350MB 미만의 RAM을 사용해요.

개발자는 TinyLlama, Qwen, TinyLlama Hybrid 모델을 활용하여 1비트 양자화 손실을 보정하고 영어 지능을 100% 유지하는 방법을 시연했어요. 특히 TinyLlama Hybrid 모델은 16배 압축률을 달성했어요.

엔진은 모델 가중치를 1비트 또는 3진법 상태로 압축하고, 메모리 매핑된 바이트 버퍼에 아키텍처 정의를 직접 임베딩하는 방식으로 작동하며, LLaMA 및 Qwen 기반 모델을 지원해요.

##LLM##러스트##양자화##엣지AI

매일 핵심 AI 소식을 한국어로, 빠르게