Arbor는 AI 에이전트가 장기간 스스로 연구 루프를 반복하도록 설계된 자율 연구 프레임워크입니다. Arbor는 코디네이터, 실행기, 가설 트리 정제(HTR)를 결합하여 가설, 결과물, 증거, 통찰력을 연결합니다. MLE-Bench Lite에서 GPT-5.5와 함께 사용 시 86.36% Any Medal 달성하며 Codex 및 Claude Code보다 2.5배 높은 성능을 보였습니다.