연구진은 Arena에서 수집한 116개 언어의 52개 LLM 비교 데이터를 분석한 결과, 글로벌 Bradley-Terry(BT) 순위가 잘못된 정보를 제공한다고 밝혔습니다.
언어, 작업, 시간에 따른 의견의 이질성으로 인해 결정적인 투표의 약 2/3가 상쇄되며, 상위 50개 모델 간의 통계적 차이가 미미합니다.
연구진은 $(λ, ν)$-포트폴리오 프레임워크를 도입하여 예측 오류를 최소화하고 사용자 커버리지를 최대화하는 소규모 모델 집합을 구성했으며, Arena 데이터에서 96% 이상의 투표를 커버하는 5개의 BT 순위를 복원했습니다.