컴퓨터 사용 에이전트(CUA)가 다양한 인터페이스를 융합하여 작동하는 환경을 평가하는 WeaveBench가 새롭게 공개됐어요. 이 벤치마크는 실제 사용자 요청과 공개적으로 검증 가능한 결과물을 기반으로 8가지 실제 작업 영역에서 114가지 작업을 포함하고 있어요.
WeaveBench는 GUI 관찰/작업과 CLI/코드 작업을 결합하는 에이전트의 능력을 평가하며, 현재 최고 성능 모델-런타임 조합에서도 PassRate가 41.2%에 불과해 앞으로 발전 여지가 많아요.
결과물 기반 평가만으로는 에이전트 성능을 과대평가할 수 있다는 점을 보여주며, GUI, CLI, 코드 작업을 장기적인 실제 작업에서 조율하는 에이전트의 능력을 측정하는 효과적인 테스트베드를 제공합니다.