스냅드래곤 8 Gen 3을 탑재한 OnePlus 12에서 llama.cpp를 실행해 본 결과, Hexagon NPU를 통해 CPU와 비슷한 수준의 성능을 얻으면서도 발열이 적고 TG 속도가 괜찮은 것으로 나타났어요.
현재는 Q4_0, IQ4_NL, MXFP4, Q8_0, F32 ggufs 형식만 지원하며, KV 캐시 양자화는 아직 지원하지 않지만, Qualcomm의 적극적인 지원을 받고 있어요.
Hexagon NPU는 4GB RAM 제한으로 인해 모델 크기가 클 경우 환경 변수를 통해 여러 NPU 장치를 사용해야 하며, 향후 Adreno GPU만 활용하거나 CPU, GPU, NPU를 함께 사용하는 방법도 연구해 볼 수 있을 것 같아요.