최신 이미지 및 비디오 생성 모델의 병목 현상은 쉐이더 수가 아닌 VRAM 용량, 메모리 대역폭, 텐서 이동, 캐시 효율성입니다.
RTX 40 시리즈 GPU는 FP8을 네이티브로 지원하여 실제 하드웨어 가속 및 속도 향상을 제공합니다. MXFP8과 NVFP4는 RTX 40에서 에뮬레이션으로만 작동합니다.
MXFP8은 텐서 블록별 독립적인 스케일 팩터를 사용하여 더 나은 동적 범위를 제공하며, NVFP4는 극도로 낮은 VRAM 사용량과 최대 처리량을 제공합니다.
MXFP8/NVFP4 워크플로우를 사용하려면 CUDA 13.0, 드라이버 570+, PyTorch 2.10+, TorchAO의 최신 버전을 설치해야 합니다.
NVFP4는 BF16에 비해 최대 1.68배 빠른 속도를 제공하지만, 일부 레이어에서 품질 저하가 발생할 수 있습니다.