AgentFloor는 에이전트 워크플로우의 다양한 단계를 평가하는 30개의 벤치마크로, 지시 따르기, 도구 사용, 다단계 조정, 장기 계획 등을 포함합니다.
연구 결과, 0.27B에서 32B 파라미터 규모의 오픈 모델은 대부분의 짧은 에이전트 워크플로우에서 충분한 성능을 보이며, GPT-5와 유사한 성능을 더 저렴하고 빠르게 제공합니다.
장기 계획 및 지속적인 제약 조건 추적이 필요한 작업에서만 최첨단 모델이 우위를 점하며, 이 또한 완벽하게 신뢰할 수 있는 수준은 아닙니다.