Artificial Analysis와 IBM이 기업 IT 작업, 특히 사이트 안정 엔지니어링(SRE)을 평가하는 새로운 벤치마크 ITBench-AA를 발표했어요.
Claude Opus 4.7이 47%로 가장 높은 점수를 기록했지만, GPT-5.5, Qwen3.7 Max 등 모든 최첨단 모델은 50% 미만의 점수를 기록하며 낮은 성능을 보였어요.
ITBench-AA는 Kubernetes 환경에서 로그 분석, 의존성 추적, 근본 원인 파악 등 에이전트의 능력을 평가하며, 더 많은 턴(turn)이 반드시 더 나은 결과를 보장하지 않는다는 점이 확인됐어요.