Gemma 4 26B-A4B 모델을 2016년형 Xeon 서버에서 ik_llama.cpp 최적화로 실행했어요. GPU 없이 DDR3 128GB 메모리를 가진 서버에서 읽기 속도 수준까지 구현 가능했어요. LLM 디코더 패스는 연산보다 메모리 대역폭이 병목 현상으로 작용하는 것으로 확인됐어요.