ai-infos 사용자가 AMD MI50 32개 GPU를 활용하여 Kimi K2.6 모델을 실행하는 시스템을 구축하고, 토큰 처리량 9.7t/s, 추론 처리량 264t/s라는 놀라운 성능을 기록했어요.
이 시스템은 vllm-gfx906-mobydick을 기반으로 하며, 2개의 노드에 각각 16개의 GPU를 연결하여 운영하며, 전력 소비량은 유휴 상태에서 약 640W, 최대 추론 시 4800W에 달해요.
사용자는 PCIe 대역폭 제한으로 인해 성능이 제한적이지만, 최적화를 통해 토큰 처리량 9~12t/s, 추론 처리량 600~1000t/s까지 향상될 가능성을 언급하며, 더 작은 모델을 활용하는 쪽을 고려 중이라고 밝혔어요.