구글이 TPU v7x Ironwood의 추론 벤치마크를 공개했으며, 엔비디아는 B200의 InferenceMAX 수치를 발표했습니다. 두 칩의 직접적인 성능 비교는 아직 이루어지지 않았습니다.
Qwen3-32B(밀집)와 Qwen3-Coder-480B-A35B(MoE) 모델을 사용하여 동일한 FP8 설정을 적용한 결과, 칩마다 '더 빠른 성능'은 모델에 따라 달라지는 것으로 나타났습니다.
MoE 모델의 경우, 엔비디아 B200의 SGLang이 더 나은 MoE 디스패치 최적화를 통해 성능을 발휘했을 가능성이 있습니다. 이는 하드웨어 자체의 성능 차이가 아닐 수 있습니다.