Pulse · AI 뉴스

Workspace-Bench 1.0: 파일 의존성이 큰 작업 공간에서 AI 에이전트 벤치마킹

Workspace-Bench · 2026-05-05

연구진은 실제 작업 공간의 복잡한 파일 의존성을 평가하는 Workspace-Bench 1.0을 발표했어요. 5명의 작업자 프로필, 74가지 파일 형식, 2만476개의 파일로 구성된 388개의 작업과 7399개의 평가 항목을 포함하고 있어요.

Workspace-Bench-Lite라는 축소 버전도 제공하며, 평가 비용을 약 70% 절감하면서도 벤치마크의 분포를 유지해요.

현재 AI 에이전트는 작업 공간 학습에서 인간 수준의 성능에 미치지 못하며, 최고 성능은 68.7%, 평균 성능은 47.4%에 불과해요.

##에이전트##벤치마크##워크스페이스

매일 핵심 AI 소식을 한국어로, 빠르게