Pulse · AI 뉴스

스냅드래곤 하드웨어에서 llama.cpp 실행, NPU 활용 가능성 확인

Qualcomm · 2026-05-01

스냅드래곤 8 Gen 3을 탑재한 OnePlus 12에서 llama.cpp를 실행해 본 결과, Hexagon NPU를 통해 CPU와 비슷한 수준의 성능을 얻으면서도 발열이 적고 TG 속도가 괜찮은 것으로 나타났어요.

현재는 Q4_0, IQ4_NL, MXFP4, Q8_0, F32 ggufs 형식만 지원하며, KV 캐시 양자화는 아직 지원하지 않지만, Qualcomm의 적극적인 지원을 받고 있어요.

Hexagon NPU는 4GB RAM 제한으로 인해 모델 크기가 클 경우 환경 변수를 통해 여러 NPU 장치를 사용해야 하며, 향후 Adreno GPU만 활용하거나 CPU, GPU, NPU를 함께 사용하는 방법도 연구해 볼 수 있을 것 같아요.

##llama.cpp##스냅드래곤##NPU##Qualcomm##최적화

매일 핵심 AI 소식을 한국어로, 빠르게