사용자가 RTX 5090에서 Gemma 4 31B 모델을 llama-cpp로 실행할 때 토큰 생성 속도가 느린 문제를 겪고 있습니다. LM Studio 에서는 초당 50 토큰이었지만, llama-cpp 에서는 초당 30 토큰으로 떨어졌습니다. 사용자는 속도 향상을 위해 다양한 파라미터 조정 가능성을 문의했습니다.