연구진이 다양한 전문 분야에서 에이전트의 일반화 능력을 평가하는 웹 기반 벤치마크 GauntletBench를 공개했어요.
GauntletBench는 시간 인식, 그래픽 이해, 3D 추론 등 기존 벤치마크에서 간과된 3가지 능력에 집중하고, 비디오 편집기, 워크플로우 빌더 등 5가지 전문 분야를 다룹니다.
최첨단 에이전트조차 GauntletBench에서 19.1%의 성공률에 그쳐 인간 수준의 성능에 미치지 못하며, 인간은 80% 이상의 성공률을 보였습니다.