llama.cpp 프로젝트에서 CUDA 기반 Walsh-Hadamard 변환(FWHT)을 구현하여 kv-캐시 양자화 시 성능을 개선했어요. pp 성능은 1~2%, tg 성능은 7~9% 향상된 것으로 나타났으며, RTX 5090에서 q8_0 양자화 시 측정됐어요. Gemma 4 26B 모델을 사용했을 때, tg128 환경에서 최대 1.09배의 속도 향상을 보였어요.