Apex-Testing 프로젝트가 실제 GitHub 저장소 기반의 에이전트 코딩 벤치마크를 95% 업데이트했어요.
70개의 실제 개인 GitHub 저장소를 활용해 모델의 에이전트 코딩 능력을 평가하며, 기존 벤치마크의 허점을 보완해요.
현재까지 다양한 모델의 성능을 측정하고 있으며, Qwen3.7 Max, Deepseek v4 pro+flash 모델의 추가 작업이 진행 중이에요.
프로젝트 운영을 위한 기부 또는 OpenRouter 토큰 지원을 고려 중이며, 향후 API 비용을 고려해 모델 업데이트를 선택적으로 진행할 예정이에요.