사용자가 양자 모델의 로컬 성능 비교 벤치마크의 필요성을 제기했어요. 기존 벤치마크는 모델 출시가 잦아 실행 가능성이 낮고, 특정 작업에 대한 예측력을 평가하는 데 집중해야 한다고 주장했어요. DIY 방식 외에 자동화된 양자 수준 비교 방법이 있는지 문의했어요.
q5 양자 모델이 q8 양자 모델의 95.56% 성능을 낸다는 식의 자동화된 성능 지표가 있으면 좋겠다는 의견이에요. 모델 양자화 수준에 따른 성능 변화를 빠르게 파악할 수 있는 방법이 필요하다고 강조했어요.
기존 벤치마크는 모델이 수백억 토큰을 생성하며, 개인 환경에서 실행하기 어렵다는 점을 지적했어요. 특정 작업에서 q6 양자 모델은 통과하지만 q5 양자 모델은 실패하는 경우를 파악하는 데 집중해야 한다고 제안했어요.