사용자가 Q8 이하의 양자화 모델을 사용하여 로컬에서 대규모 모델을 실행할 때 추론 속도 향상을 위한 도움을 요청했어요. 현재 Threadripper Pro 3945WS 환경에서 MiniMax-2.7 모델을 llama.cpp CPU 백엔드로 실행할 때 약 5~7 토큰/초의 속도를 기록하고 있어요. CPU 업그레이드(5975WX)가 메모리 대역폭 병목 현상을 극복하고 속도 향상에 도움이 될지 궁금해하며 경험자 의견을 구하고 있어요.