RDNA3 GPU에서 llama.cpp를 사용할 때 Flash Attention을 적용하면 KV VRAM 사용량을 기존 방식보다 최대 47% 줄일 수 있어요.
Flash Attention은 8비트 K 값을 32비트 패킷으로 묶어 GPU의 `sudot4` 연산 명령어를 활용하는 방식으로, K 값의 양자화 손실 없이 VRAM을 절약해요.
WikiText-2 테스트 결과, q4_0 V를 사용할 때 KLD 손실은 0.00455로 거의 감지할 수 없을 정도이며, q8_0 V를 사용하면 fp16 V에 비해 품질이 더 향상돼요.