Pulse · AI 뉴스

WeaveBench: 하이브리드 인터페이스를 활용한 컴퓨터 사용 에이전트 벤치마크

WeaveBench · 2026-06-08

연구진이 GUI·CLI·코드 편집 등 다양한 인터페이스를 조작하는 컴퓨터 사용 에이전트(CUA)의 성능을 평가하는 WeaveBench 벤치마크를 공개했어요.

WeaveBench는 8개 실제 업무 영역의 114개 작업으로 구성되어 있으며, 에이전트가 단일 경로 내에서 GUI 관찰/작업과 CLI/코드 작업을 결합해야 합니다.

최첨단 모델-런타임 조합의 최고 PassRate는 41.2%에 불과하며, 결과물 기반 평가만으로는 에이전트 성능을 과대평가할 수 있습니다.

##에이전트##벤치마크##하이브리드인터페이스

매일 핵심 AI 소식을 한국어로, 빠르게