사용자는 이미지 분류, 코드 생성 등 텍스트 생성 외의 문제를 해결하기 위해 로컬 LLM을 사용하고 있습니다. 그는 토큰/초 지표보다 응답 시간과 답변 품질을 나타내는 퍼플렉시티, 응답 시간(TTFT)이 더 중요하다고 생각합니다. 특히 API 요청을 최대한 처리해야 하는 서버 환경에서는 TTFT가 더 관련이 있습니다.
Gemma 4:e4b 모델의 문서당 TTFT가 5초인 반면, Gemma 4:31b 모델은 35초입니다. 그는 답변 품질도 평가하고 싶어합니다.
사용자는 토큰/초 지표가 널리 사용되는 이유가 계산 용이성 때문인지 궁금하며, 자신이 관심 있는 지표를 포괄하는 다른 널리 사용되는 지표가 있는지 알고 싶어합니다.