연구진이 CuTeDSL 기반 MXFP8 양자화기를 개발하여 B200에서 6TB/s 이상의 성능을 달성했어요. 이 양자화기는 블랙웰의 블록 스케일 텐서 코어가 기대하는 패킹된 레이아웃에 스케일 팩터를 직접 기록하여 추가적인 패킹 단계를 없앴어요. MXFP8는 미세 스케일링 형식을 사용하며, 블랙웰의 Tensor Core가 효율적으로 데이터를 처리할 수 있도록 설계되었어요.