Pulse · AI 뉴스

Apex-Testing: 실제 코드 기반 에이전트 코딩 벤치마크 업데이트

Apex-Testing · 2026-05-23

Apex-Testing 프로젝트가 실제 GitHub 저장소 기반의 에이전트 코딩 벤치마크를 95% 업데이트했어요.

70개의 실제 개인 GitHub 저장소를 활용해 모델의 에이전트 코딩 능력을 평가하며, 기존 벤치마크의 허점을 보완해요.

현재까지 다양한 모델의 성능을 측정하고 있으며, Qwen3.7 Max, Deepseek v4 pro+flash 모델의 추가 작업이 진행 중이에요.

프로젝트 운영을 위한 기부 또는 OpenRouter 토큰 지원을 고려 중이며, 향후 API 비용을 고려해 모델 업데이트를 선택적으로 진행할 예정이에요.

##에이전트코딩##벤치마크##ApexTesting

매일 핵심 AI 소식을 한국어로, 빠르게