연구진은 불확실한 환경에서 다양한 에이전트를 조율하는 새로운 프레임워크 BOT-Orch를 제안했어요. BOT-Orch는 에이전트의 신뢰성, 비용, 출력 분포 불확실성을 고려하여 최적의 위임 결정을 내립니다. 이 프레임워크는 에이전트 조율을 밴디트 문제로 재구성하고, OT 거리를 활용하여 에이전트 출력 분포를 정렬합니다.
BOT-Orch는 표준 밴디트 방식보다 $\mathcal{O}(\sqrt{T})$의 후회(regret)를 줄이며, 평균 보상이 동일한 에이전트 간 선호도 순서를 유도할 수 있음을 증명했어요. 다양한 에이전트 행동 환경에서 기존 방식보다 성능이 우수함을 실험적으로 확인했습니다.