Zai가 GLM-5.1 코딩 추론을 위해 ROFT 대신 자체 개발한 ZCube 네트워크 아키텍처로 전환했어요. ZCube는 Tsinghua University와 HarnetsAI와 협력하여 개발되었으며, 스위치 및 광 모듈 비용을 33% 절감하고 GPU 추론 처리량을 15% 향상시켰어요. Prefill-Decode 분산 추론에서 발생하는 KV 캐시 전송 문제를 해결하여 첫 번째 토큰 지연 시간을 40.6% 감소시켰어요.