Pulse · AI 뉴스

실시간 검증 경계 오차 양자화 어텐션

Llama · 2026-05-20

연구진이 KV 캐시 양자화 시 발생하는 오차를 실시간으로 검증하고 복구하는 새로운 아키텍처를 개발했어요.

INT8 키와 INT4 값을 GPU 메모리에 저장하고, FP16 원본을 시스템 RAM에 보관하여 필요시 정확한 어텐션으로 복구하는 계층 구조를 사용해요.

PG-19, NIAH, RULER 벤치마크에서 LLaMA~3.1-8B 모델을 128K 컨텍스트까지 사용했을 때, 기존 INT8/INT4 방식의 오류를 복구하며 FP16 KV 품질을 유지했어요.

##양자화##어텐션##KV캐시##LLaMA##실시간검증
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기