Pulse · AI 뉴스

OSWorld 2.0: 현실 세계 작업에서 컴퓨터 사용 에이전트 벤치마킹

OSWorld · 2026-06-28

OSWorld 2.0은 현실적인 컴퓨터 사용 환경을 반영하기 위해 108가지의 장기 작업 워크플로우를 포함하는 새로운 벤치마크입니다.

각 작업은 사람이 평균 1.6시간 동안 수행하며, Claude Opus 4.7은 최대 사고 기능을 사용했을 때 평균 318번의 도구 호출이 필요합니다.

Claude Opus 4.8은 500단계에서 20.6%의 작업 완료율을 기록했지만, GPT-5.5는 토큰 효율성은 높지만 13%에서 정체되는 것으로 나타났습니다.

##벤치마크##에이전트##OSWorld

매일 핵심 AI 소식을 한국어로, 빠르게