Anthropic과 OpenAI가 개발한 Claude Opus 4.8과 GPT-5.5만이 CEO-Bench에서 100만 달러 이상 자본금을 유지했지만, 지속적인 수익 창출에는 실패했어요.
CEO-Bench는 LLM 에이전트의 장기적인 문제 해결 능력, 불확실성 속 정보 습득, 변화하는 환경 적응, 복잡한 목표 달성 능력을 평가하는 새로운 벤치마크입니다.
에이전트는 500일 동안 가상 스타트업을 운영하며 가격, 마케팅, 예산 등 다양한 의사 결정을 내리고, 실제 CEO와 유사한 환경에서 운영되며 다양한 난관에 직면합니다.