OSWorld 2.0은 현실적인 컴퓨터 사용 환경을 반영하기 위해 108가지의 장기 작업 워크플로우를 포함하는 새로운 벤치마크입니다.
각 작업은 사람이 평균 1.6시간 동안 수행하며, Claude Opus 4.7은 최대 사고 기능을 사용했을 때 평균 318번의 도구 호출이 필요합니다.
Claude Opus 4.8은 500단계에서 20.6%의 작업 완료율을 기록했지만, GPT-5.5는 토큰 효율성은 높지만 13%에서 정체되는 것으로 나타났습니다.