연구진은 라우팅, 투표, 캐스케이드, 퓨전, Mixture-of-Agents 등 다중 모델 LLM 시스템의 성능 향상 한계를 분석했어요.
모든 모델이 동일한 질문에 대해 틀릴 확률인 베타(beta)가 정책의 정확도를 제한하며, 평균 쌍별 오류 상관관계(rho)로는 베타를 식별할 수 없다는 것을 밝혀냈어요.
67개의 모델을 분석한 결과, 오픈형 수학 문제에서 관찰된 베타는 0.052로, 기존 추정치(0.023)보다 2.5배 높았고, 이는 다중 모델 시스템의 잠재력을 과소평가하고 있음을 시사해요.