Reddit 사용자가 Gemma 2 9B의 FP8 양자화가 초기 프리필 단계에서 성능 저하를 일으킬 수 있다고 분석했어요. 특히 복잡한 프롬프트와 긴 컨텍스트에서 TTFT(Time to First Token)가 58%까지 증가할 수 있다고 밝혔어요.
FP8 양자화는 메모리 대역폭 병목 현상을 줄여 토큰 생성 속도를 높이지만, 프리필 단계에서 역산 양자화 오버헤드가 발생해 성능 저하를 유발할 수 있다고 설명했어요.
자체 호스팅 Gemma 2 9B를 사용할 때, 인터랙티브한 애플리케이션이나 짧은 컨텍스트를 처리할 때는 FP8 양자화가 VRAM을 확보하고 동시 처리량을 늘리는 데 도움이 된다고 결론지었어요.