Pulse · AI 뉴스

Gemma 4 31B, RTX 5090에서 토큰 생성 속도 느림 현상

Gemma · 2026-05-13

사용자가 RTX 5090에서 Gemma 4 31B 모델을 llama-cpp로 실행할 때 토큰 생성 속도가 느린 문제를 겪고 있습니다.

LM Studio 에서는 초당 50 토큰이었지만, llama-cpp 에서는 초당 30 토큰으로 떨어졌습니다.

사용자는 속도 향상을 위해 다양한 파라미터 조정 가능성을 문의했습니다.

##Gemma##RTX5090##llama-cpp##성능

매일 핵심 AI 소식을 한국어로, 빠르게