Qwen 3.6 35B 모델의 샘플링 파라미터 최적화에 어려움을 겪고 있으며, 기존 권장 설정이 최적이라고 보기 어려운 이유를 설명해요.
GSM8K, IFEval, GPQA Diamond 등 벤치마크를 시도했지만, GSM8K와 IFEval은 포화 상태이고, GPQA Diamond는 변동성이 커서 신뢰성 있는 결과를 얻기 어려워요.
샘플링 자체의 변동성을 고려하여 더 많은 질문을 통해 평균을 내야 하며, 더 나은 벤치마크나 평가 방법을 알고 있는 분의 의견을 구하고 있어요.