연구진이 텍스트, 이미지, 음성, 영상 등 다양한 입력(omnimodal)을 처리하는 멀티 에이전트 오케스트레이션 프레임워크 Orchestra-o1을 발표했어요.
Orchestra-o1은 modality-aware 작업 분해, 실시간 서브 에이전트 전문화, 병렬 서브 작업 실행 기능을 지원하며, OmniGAIA 벤치마크에서 기존 방식보다 10.3% 정확도 향상했어요.
DA-GRPO라는 새로운 강화 학습 방식으로 Orchestra-o1-8B 모델을 훈련했고, 기존 오픈소스 모델 대비 최고 성능을 달성했어요.