Pulse · AI 뉴스

장시간 컴퓨터 사용 능력 벤치마크 'OS월드 2.0' 공개…클로드 오퍼스 4.8 최고점

Claude · 2026-06-28

X랭(XLANG)이 실제 업무 환경을 반영한 장시간 컴퓨터 사용 능력 벤치마크 'OS월드 2.0'을 공개했어요. 기존 벤치마크는 단순 작업 평가에 집중했지만, OS월드 2.0은 평균 1.6시간이 걸리는 실제 업무를 기반으로 AI 에이전트의 장기 작업 수행 능력을 측정해요.

클로드 오퍼스 4.8이 OS월드 2.0 벤치마크에서 최고점을 기록했으며, 이는 실제 전문가 수준의 업무 환경에서 AI 에이전트의 성능을 입증하는 결과로 평가돼요.

##벤치마크##AI에이전트##OS월드
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기