사용자가 12GB Tesla T4 GPU와 RAM 오프로딩으로 Kimi 모델을 실행하며 출력 토큰 성능에 대한 궁금증을 표현했어요. CPU만 사용 시 1.6t/s 출력, 20t/s 입력 속도를 기록했는데, NUMA 환경에서 실행 중이며 48코어/96스레드 CPU와 1.5TB RAM을 사용하고 있어요. Q8 모델이 Q4 모델보다 약간 더 빠른 속도를 보여주는 현상에 대해 의문을 제기하며 다른 사용자들의 경험을 공유하고 싶어해요.