Pulse · AI 뉴스

STaR-Quant: 디퓨전 LLM의 상태-시간 일관성 후속 양자화

STaR-Quant · 2026-06-03

본 논문은 디퓨전 LLM의 효율적인 배치를 위한 후속 양자화 프레임워크 STaR-Quant을 제안합니다.

STaR-Quant은 상태 의존성 활성화 차이와 시간적 오류 누적이라는 양자화의 주요 과제를 해결하기 위해 State-Guided Activation Transformation (SGAT)과 Temporal Attention Compensation (TAC)을 도입합니다.

실험 결과 STaR-Quant은 기존 PTQ 방식보다 성능이 뛰어나고, FP16 배포 대비 최대 1.69배 속도 향상과 3.14배 메모리 절감 효과를 보였습니다.

##디퓨전LLM##양자화##STaR-Quant##AI모델최적화
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기