본 연구는 LLM 기반 다중 에이전트 시스템에서 작업 생성, 위임, 소통, 통합, 중단 등 작업을 조율하는 '오케스트레이션 추적'을 활용한 강화 학습(RL)을 연구합니다.
연구진은 보상 설계, 신호 전달 단위, 오케스트레이션 학습 결정 등 세 가지 기술 축을 분석했으며, 특히 작업 중단 결정에 대한 명시적 RL 훈련 방법은 찾지 못했습니다.
Kimi Agent Swarm, OpenAI Codex, Anthropic Claude Code 등 산업계 사례를 분석하고, 관련 연구 자료를 GitHub에 공개하여 연구 재현성을 높였습니다.