Sigilant-sweep CLI를 통해 llama.cpp와 vLLM에서 Qwen2.5-7B 모델의 다양한 설정을 테스트했어요. Q4_K_M 양자화 방식이 Q8_0보다 TTFT(토큰 생성 시간)가 230ms 단축되는 결과를 보였어요. 이 도구는 TPS, TTFT, PPL을 측정하며, 16가지 설정 조합을 15회 반복하여 안정적인 결과를 제공해요. Github에서 오픈소스로 공개되었으며, 피드백을 환영합니다.