LLM은 순수 함수여야 하며, 동일한 프롬프트에 대해 응답이 동일해야 합니다. 모델의 적합성을 의심하지 않고 비교할 수 있는 방법입니다. 추천 설정은 벤치마크를 위해 조정된 것이 아니라 사용자에게 맞춰진 것이 아닙니다. Reddit 사용자가 LLM 추천 설정의 문제점을 지적하며, 탐욕적 디코딩 사용을 제안했습니다.