Google의 양자화 도구에 오류가 발생하여 현재는 unsloth UD Q4_K_XL을 사용하는 것이 좋습니다. llama-quantize 함수가 토큰 임베드를 잘못 양자화하고, 블록 그룹이 정렬되지 않아 혼합되는 문제가 발생했습니다. unsloth Q4_K_XL은 실제로는 순수한 Q4_0 양자화 방식입니다.
llama-quantize 함수는 -7로 하드 코딩되어 있어 일부 그룹에 최적화되지 않았고, 32 블록 그룹이 정렬되지 않아 혼합되는 문제가 발생했습니다. 이러한 문제는 블록 그룹을 분리하여 양자화하면 해결할 수 있습니다. Google의 오류는 성능에 미미한 영향을 미치지만 완벽을 추구하는 과정에서 필요합니다.
패치 개발 중이지만 다른 사용자가 먼저 제출할 가능성도 있습니다. unsloth는 자체 프로세스를 숨기려는 의도로 추정됩니다.