LLM 벤치마크 결과를 방향 그래프로 시각화하는 'LLM Win' 웹사이트가 출시되었습니다.
약 12만 7천 쌍의 모델 페어를 분석한 결과, 지능 지수가 낮은 모델이 높은 모델에게서 94.2%의 통과 사슬을 통해 도달 가능했습니다.
대부분의 통과 경로는 2~3 홉으로 짧았으며, 이는 단순히 특정 모델을 선택하는 것이 아님을 시사합니다.
일부 벤치마크는 다른 벤치마크보다 더 많은 역전 현상을 만들어내며, 이는 전문화 또는 벤치마크의 한계를 반영할 수 있습니다.