본 논문은 디퓨전 LLM의 효율적인 배치를 위한 후속 양자화 프레임워크 STaR-Quant을 제안합니다.
STaR-Quant은 상태 의존성 활성화 차이와 시간적 오류 누적이라는 양자화의 주요 과제를 해결하기 위해 State-Guided Activation Transformation (SGAT)과 Temporal Attention Compensation (TAC)을 도입합니다.
실험 결과 STaR-Quant은 기존 PTQ 방식보다 성능이 뛰어나고, FP16 배포 대비 최대 1.69배 속도 향상과 3.14배 메모리 절감 효과를 보였습니다.