AI 평가 기관 아티피셜 애널리시스가 장기 프로젝트 수행 능력을 평가하는 새로운 벤치마크 'AA-브리프케이스'를 공개했어요. 기존 벤치마크와 달리 몇 주에 걸친 장기 프로젝트 수행 능력을 측정하며, 페이블 5가 1위를 차지했어요. 이 벤치마크는 AI 모델의 실제 업무 수행 능력을 평가하는 데 목표를 두고 있어요.