연구진은 추론 방법의 연산 효율성을 분석하여, 성능 향상과 비용 효율적인 연산 사용 간의 균형을 맞추고자 했습니다.
MMLU-Pro, BBH 벤치마크에서 다양한 모델 크기와 파라미터 조합으로 34개의 구성, 100개 이상의 평가를 진행하여 패레토 최적 프론트를 계산했습니다.
다중 에이전트 추론은 최대 20배의 연산 예산을 사용할 때 MMLU-Pro에서 최대 7.1%의 정확도 향상을 보여주었으며, 동일한 예산에서 토론 및 혼합 에이전트 방식이 더 나은 성능을 보였습니다.