연구진이 GUI·CLI·코드 편집 등 다양한 인터페이스를 조작하는 컴퓨터 사용 에이전트(CUA)의 성능을 평가하는 WeaveBench 벤치마크를 공개했어요.
WeaveBench는 8개 실제 업무 영역의 114개 작업으로 구성되어 있으며, 에이전트가 단일 경로 내에서 GUI 관찰/작업과 CLI/코드 작업을 결합해야 합니다.
최첨단 모델-런타임 조합의 최고 PassRate는 41.2%에 불과하며, 결과물 기반 평가만으로는 에이전트 성능을 과대평가할 수 있습니다.