Pulse · AI 뉴스

Jetson AGX Orin 64GB: q8_0 양자화가 q6_k보다 성능 우수

Jetson · 2026-06-04

Jetson AGX Orin 64GB에서 q8_0 양자화가 q6_k 양자화보다 프롬프트 처리 속도가 20% 이상 빠릅니다.

llama.cpp를 사용했을 때 q8_0 양자화는 10000+ 토큰 프롬프트에서 245 pp를 기록했습니다.

메모리 대역폭 병목 현상은 없으며, CUDA 코어 최적화 문제로 추정됩니다.

##Jetson##AGXOrin##llama.cpp##q8_0##q6_k

매일 핵심 AI 소식을 한국어로, 빠르게