Pulse · AI 뉴스

CUDA: Walsh-Hadamard 변환 속도 향상 - llama.cpp Pull Request

llama.cpp · 2026-05-26

llama.cpp 프로젝트에서 CUDA 기반 Walsh-Hadamard 변환(FWHT)을 구현하여 kv-캐시 양자화 시 성능을 개선했어요.

pp 성능은 1~2%, tg 성능은 7~9% 향상된 것으로 나타났으며, RTX 5090에서 q8_0 양자화 시 측정됐어요.

Gemma 4 26B 모델을 사용했을 때, tg128 환경에서 최대 1.09배의 속도 향상을 보였어요.

##CUDA##llama.cpp##양자화##FWHT

매일 핵심 AI 소식을 한국어로, 빠르게