Pulse · AI 뉴스

TUA-Bench: 범용 터미널 사용 에이전트 벤치마크

Claude · 2026-06-26

연구진이 터미널 기반 에이전트의 범용 컴퓨터 사용 능력을 평가하는 새로운 벤치마크 TUA-Bench를 공개했어요.

TUA-Bench는 문서 편집, 이메일 관리, 실시간 웹 정보 검색 등 다양한 실제 업무와 과학/공학 워크플로우를 포함하는 120개의 과제를 담고 있어요.

Claude Opus 4.8 기반 에이전트가 65.8%의 성능을 보였지만, 개선 여지가 많으며, TUA-Bench는 다양한 디지털 환경에서 활용 가능한 범용 에이전트 개발을 가속화하는 데 기여할 것으로 기대돼요.

##에이전트##터미널##벤치마크##ClaudeOpus
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기