Pulse · AI 뉴스

ITBench-AA: 기업 IT 작업 벤치마크에서 최첨단 모델, 에이전트 성능 50% 미만 기록

Hugging Face · 2026-05-28

Artificial Analysis와 IBM이 기업 IT 작업, 특히 사이트 안정 엔지니어링(SRE)을 평가하는 새로운 벤치마크 ITBench-AA를 발표했어요.

Claude Opus 4.7이 47%로 가장 높은 점수를 기록했지만, GPT-5.5, Qwen3.7 Max 등 모든 최첨단 모델은 50% 미만의 점수를 기록하며 낮은 성능을 보였어요.

ITBench-AA는 Kubernetes 환경에서 로그 분석, 의존성 추적, 근본 원인 파악 등 에이전트의 능력을 평가하며, 더 많은 턴(turn)이 반드시 더 나은 결과를 보장하지 않는다는 점이 확인됐어요.

##ITBenchAA##SRE##Kubernetes##OpenAI##Anthropic

매일 핵심 AI 소식을 한국어로, 빠르게