Jetson AGX Orin 64GB에서 q8_0 양자화가 q6_k 양자화보다 프롬프트 처리 속도가 20% 이상 빠릅니다. llama.cpp를 사용했을 때 q8_0 양자화는 10000+ 토큰 프롬프트에서 245 pp를 기록했습니다. 메모리 대역폭 병목 현상은 없으며, CUDA 코어 최적화 문제로 추정됩니다.