개발자가 Qwen 3 모델을 위한 순수 C 기반 추론 엔진을 직접 제작했습니다. 기존 LLM 작동 방식에 대한 이해를 높고, 외부 라이브러리 의존성을 최소화하기 위한 시도입니다.
ChatGPT를 활용해 토큰화, 트랜스포머 수학, KV 캐싱, 양자화 등 핵심 LLM 개념을 학습하며 엔진을 구현했습니다. 성능 최적화보다는 정확성과 가독성을 우선시했습니다.
현재 CPU 기반으로 1초에 1 토큰 생성 속도를 보이며, OpenMP 병렬화로 속도 향상을 기대할 수 있습니다. HF safetensors 파일에서 직접 로드하며 4비트 양자화를 지원합니다.