X랭(XLANG)이 실제 업무 환경을 반영한 장시간 컴퓨터 사용 능력 벤치마크 'OS월드 2.0'을 공개했어요. 기존 벤치마크는 단순 작업 평가에 집중했지만, OS월드 2.0은 평균 1.6시간이 걸리는 실제 업무를 기반으로 AI 에이전트의 장기 작업 수행 능력을 측정해요. 클로드 오퍼스 4.8이 OS월드 2.0 벤치마크에서 최고점을 기록했으며, 이는 실제 전문가 수준의 업무 환경에서 AI 에이전트의 성능을 입증하는 결과로 평가돼요.