Reddit 사용자 APFrisco가 인텔 옵테인 PMem을 활용하여 Kimi K2.5 모델을 12GB GPU와 함께 4 tokens/s로 구동하는 시스템을 구축했습니다.
옵테인 PMem은 DRAM과 SSD의 중간 형태의 메모리로, 768GB 용량을 제공하여 대규모 모델 호스팅을 가능하게 합니다.
Mixture-of-Experts (MoE) 아키텍처는 GPU/CPU 하이브리드 추론에 적합하며, llama.cpp를 통해 효율적인 성능을 달성했습니다.