Pulse · AI 뉴스

MyPCBench: 개인 맞춤형 컴퓨터 사용 에이전트 벤치마크

Claude · 2026-06-15

MyPCBench는 개인 비서처럼 작동하는 컴퓨터 사용 에이전트의 벤치마크로, 기존 벤치마크의 한계를 극복하기 위해 개발됐습니다.

Linux 데스크톱 환경에서 17개의 웹 애플리케이션과 184개의 실제 요청 기반 작업으로 구성되며, Claude Opus 4.6이 55.4%의 작업 완료율로 가장 높은 성능을 보였습니다.

MyPCBench 환경, 작업 세트, 에이전트 하니스는 https://mypcbench.com에서 공개됐으며, 개인화된 작업에서 에이전트의 한계를 보여줍니다.

##에이전트##벤치마크##MyPCBench
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기