연구진이 터미널 기반 에이전트의 범용 컴퓨터 사용 능력을 평가하는 새로운 벤치마크 TUA-Bench를 공개했어요.
TUA-Bench는 문서 편집, 이메일 관리, 실시간 웹 정보 검색 등 다양한 실제 업무와 과학/공학 워크플로우를 포함하는 120개의 과제를 담고 있어요.
Claude Opus 4.8 기반 에이전트가 65.8%의 성능을 보였지만, 개선 여지가 많으며, TUA-Bench는 다양한 디지털 환경에서 활용 가능한 범용 에이전트 개발을 가속화하는 데 기여할 것으로 기대돼요.