Pulse · AI 뉴스

저 VRAM 환경에서 Kimi 모델 실행 경험 공유

Kimi · 2026-05-05

사용자가 12GB Tesla T4 GPU와 RAM 오프로딩으로 Kimi 모델을 실행하며 출력 토큰 성능에 대한 궁금증을 표현했어요.

CPU만 사용 시 1.6t/s 출력, 20t/s 입력 속도를 기록했는데, NUMA 환경에서 실행 중이며 48코어/96스레드 CPU와 1.5TB RAM을 사용하고 있어요.

Q8 모델이 Q4 모델보다 약간 더 빠른 속도를 보여주는 현상에 대해 의문을 제기하며 다른 사용자들의 경험을 공유하고 싶어해요.

##모델실행##GPU##RAM##Kimi
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기