Pulse · AI 뉴스

RoPE 특성을 고려한 KV 캐시 양자화 방식 개발

Block-GTQ · 2026-06-23

연구진이 RoPE(Rotary Positional Embedding) 특성을 고려한 새로운 KV 캐시 양자화 방식인 Block-GTQ를 개발했어요. 기존 방식 대비 양자화 오차를 줄여 성능을 개선하고, 다양한 모델에서 효과를 입증했어요.

Block-GTQ는 각 RoPE 블록의 에너지 점수를 계산하여 비트 할당을 최적화하며, K-only 양자화 시 최대 80%까지 MAE(Mean Absolute Error)를 감소시켰어요.

LongBench-EN 벤치마크에서 평균 점수가 36.87에서 53.31로 향상되었고, AIME 2024/2025에서 fp16에 근접한 성능을 보여줬어요.

Qwen2.5-3B-Instruct 모델에서 KV 캐시를 3.24배 압축하고, 128K 컨텍스트에서 fp16 FlashAttention2보다 1.34배 빠른 속도를 달성했어요.

##양자화##KV캐시##RoPE##BlockGTQ##최적화
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기