Pulse · AI 뉴스

다중 에이전트 시스템 오케스트레이션의 보상 모델링

OrchRM · 2026-06-12

연구진은 다중 에이전트 시스템(MAS) 오케스트레이션 품질 평가를 위한 자체 지도 프레임워크인 Orchestration Reward Modeling(OrchRM)을 제안했어요. OrchRM은 인간 주석 없이 다중 에이전트 실행의 중간 결과물을 활용해 Bradley-Terry 보상 모델 훈련을 위한 win-lose 쌍을 구성해요.

기존 방식보다 토큰 사용량을 최대 10배 줄이면서 MAS 테스트 시간 스케일링 성능을 최대 8% 향상시켰어요. 수학적 추론, 웹 기반 질문 답변, 멀티홉 추론 등 다양한 분야에서 일관된 성능 향상을 보였어요.

OrchRM 코드는 GitHub에서 공개될 예정이에요.

##MAS##LLM##오케스트레이션##보상모델링##OrchRM

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기