사용자가 직접 모델을 평가할 수 있는 llama-eval이 ggml-org/llama.cpp에 추가되었습니다. AIME, AIME2025, GSM8K, GPQA 데이터셋을 활용하여 모델을 평가할 수 있습니다. 이 도구를 통해 양자화 및 파인튜닝 모델을 비교할 수 있습니다.