MyPCBench는 개인 비서처럼 작동하는 컴퓨터 사용 에이전트의 벤치마크로, 기존 벤치마크의 한계를 극복하기 위해 개발됐습니다.
Linux 데스크톱 환경에서 17개의 웹 애플리케이션과 184개의 실제 요청 기반 작업으로 구성되며, Claude Opus 4.6이 55.4%의 작업 완료율로 가장 높은 성능을 보였습니다.
MyPCBench 환경, 작업 세트, 에이전트 하니스는 https://mypcbench.com에서 공개됐으며, 개인화된 작업에서 에이전트의 한계를 보여줍니다.