Pulse · AI 뉴스

인텔 옵테인 PMem 활용, 1조 파라미터 모델 4 tokens/s로 구동 성공

Intel Optane · 2026-05-12

Reddit 사용자 APFrisco가 인텔 옵테인 PMem을 활용하여 Kimi K2.5 모델을 12GB GPU와 함께 4 tokens/s로 구동하는 시스템을 구축했습니다.

옵테인 PMem은 DRAM과 SSD의 중간 형태의 메모리로, 768GB 용량을 제공하여 대규모 모델 호스팅을 가능하게 합니다.

Mixture-of-Experts (MoE) 아키텍처는 GPU/CPU 하이브리드 추론에 적합하며, llama.cpp를 통해 효율적인 성능을 달성했습니다.

##LLM##인텔##옵테인##llama.cpp##Kimi

매일 핵심 AI 소식을 한국어로, 빠르게