연구진은 라우팅, 투표, 캐스케이드, 퓨전, Mixture-of-Agents 등 다중 모델 LLM 시스템의 성능 향상에 한계가 있음을 밝혔습니다.
모든 모델이 동일한 질문에 대해 틀릴 확률인 베타(beta)에 의해 성능 향상이 제한되며, 평균 쌍별 오류 상관관계(rho)만으로는 베타를 식별할 수 없습니다.
실험 결과, 수학 문제 풀이, 코드 실행, GPQA-Diamond 질문에서 관찰된 베타 값은 기존 모델이 예측하는 값보다 2.5배 높게 나타났습니다.