AutoBe는 엔드투엔드 백엔드 생성 벤치마크로, 자연어 요청 하나로 요구사항 분석, ERD, OpenAPI 스펙, E2E 테스트, NestJS 구현, 타입 안전 SDK 등 6가지 결과물을 생성합니다.
GLM 5가 벤치마크에서 가장 높은 점수를 기록했으며, qwen3.5-27b는 최첨단 모델 바로 뒤를 따랐으며, 여러 로컬 모델이 100% 컴파일 성공률로 엔터프라이즈급 백엔드를 생성했습니다.
벤치마크 실행 비용은 최첨단 모델의 경우 $1,000~1,500달러에 달하지만, 다음 라운드에서는 더 저렴한 모델이나 64GB 노트북에서 실행 가능한 모델로 범위를 좁힐 예정입니다.