연구진은 실제 작업 공간의 복잡한 파일 의존성을 평가하는 Workspace-Bench 1.0을 발표했어요. 5명의 작업자 프로필, 74가지 파일 형식, 2만476개의 파일로 구성된 388개의 작업과 7399개의 평가 항목을 포함하고 있어요.
Workspace-Bench-Lite라는 축소 버전도 제공하며, 평가 비용을 약 70% 절감하면서도 벤치마크의 분포를 유지해요.
현재 AI 에이전트는 작업 공간 학습에서 인간 수준의 성능에 미치지 못하며, 최고 성능은 68.7%, 평균 성능은 47.4%에 불과해요.