연구진이 KV 캐시 양자화 시 발생하는 오차를 실시간으로 검증하고 복구하는 새로운 아키텍처를 개발했어요.
INT8 키와 INT4 값을 GPU 메모리에 저장하고, FP16 원본을 시스템 RAM에 보관하여 필요시 정확한 어텐션으로 복구하는 계층 구조를 사용해요.
PG-19, NIAH, RULER 벤치마크에서 LLaMA~3.1-8B 모델을 128K 컨텍스트까지 사용했을 때, 기존 INT8/INT4 방식의 오류를 복구하며 FP16 KV 품질을 유지했어요.