RTX 3060 12GB 환경에서 Flux 2 Klein 모델을 FP8과 GGUF로 비교 테스트했어요.
GGUF 양자화가 VRAM 제약 환경에서 속도 향상을 가져다줄 것이라는 예상과 달리, 두 방식 간 속도 차이가 미미했어요.
실제 속도 향상은 ComfyUI의 --lowvram 플래그 제거를 통해 얻어졌으며, 모델을 RAM에 고정시켜 스왑 오버헤드를 줄이는 것이 중요했어요.
VRAM 용량이 모델을 수용할 수 있는 카드일수록 low-VRAM 플래그가 오히려 병목 현상을 유발할 수 있어요.