5명의 개발팀이 Kimi K2.6 및 DeepSeek V4와 같은 대규모 MoE 모델을 로컬에서 구동하기 위한 서버 구축을 고려 중입니다.
GH200 NVL2 (1.2TB 통합 메모리)와 8x RTX 6000 Blackwell (768GB VRAM) 중 선택을 놓고 고민하고 있으며, 예산은 약 10만~15만 달러입니다.
GH200을 테스트한 결과, 2비트 양자화 시 초당 23 토큰의 디코딩 속도를 기록했지만, 모델이 HBM에 완전히 들어가지 않아 성능 저하가 우려됩니다.