BaseRT는 Apple Silicon에서 LLM 추론 성능을 극대화하는 Metal 기반 런타임입니다. llama.cpp나 MLX 기반 프레임워크보다 최대 1.56배 높은 추론 처리량을 달성했습니다. Qwen3, Llama 3.2, Gemma 4 모델을 Q4, Q8 양자화 형식으로 M3, M4 Pro 기기에서 평가했습니다. BaseRT 공개로 Apple Silicon의 추론 플랫폼 활용 가능성이 높아졌습니다.