Pulse · AI 뉴스

불확실성 하에서 에이전트 조율 학습

arXiv cs.LG · 2026-05-26

연구진은 불확실한 환경에서 다양한 에이전트를 조율하는 새로운 프레임워크 BOT-Orch를 제안했어요. BOT-Orch는 에이전트의 신뢰성, 비용, 출력 분포 불확실성을 고려하여 최적의 위임 결정을 내립니다. 이 프레임워크는 에이전트 조율을 밴디트 문제로 재구성하고, OT 거리를 활용하여 에이전트 출력 분포를 정렬합니다.

BOT-Orch는 표준 밴디트 방식보다 $\mathcal{O}(\sqrt{T})$의 후회(regret)를 줄이며, 평균 보상이 동일한 에이전트 간 선호도 순서를 유도할 수 있음을 증명했어요. 다양한 에이전트 행동 환경에서 기존 방식보다 성능이 우수함을 실험적으로 확인했습니다.

##에이전트##조율##밴디트##불확실성##BOT-Orch
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기