4개의 RTX 3090 GPU를 NVLink로 연결하고 Tensor Parallelism(TP)을 2로 설정했을 때, NVLink를 활용하면 PCIe 연결 대비 처리량(throughput)이 최대 53% 향상되는 것으로 나타났습니다.
TP를 4로 늘려 GPU를 모두 활용하는 것은 오히려 성능을 저하시키는 결과를 초래했으며, 이는 GPU 간 연결 방식에 따라 성능 변화가 크게 달라짐을 보여줍니다.
Mamba SSM 아키텍처 기반의 Qwen3.6-27B 모델을 사용했으며, 추론 성능 향상을 위해 Speculative Decoding(MTP) 기술이 적용되었습니다.