프런티어 LLM 5종은 실제 사용자 클레임 1,000건 중 67%에서 평가가 갈렸어요. 이는 모델 간 일치율이 낮다는 의미예요. 다수 판정은 정답이 아닌 불일치 측정 기준이며, 67%의 비일치에서는 최소 1개 모델이 오류를 낼 수 있어요. 4단계 루브릭에서 2칸 차이만으로도 모델 간 평가가 달라지는 경우가 많아, LLM 평가의 어려움을 보여줘요.