OpenComputer는 컴퓨터 사용 에이전트를 위한 검증 가능한 소프트웨어 세상을 구축하는 프레임워크입니다. 앱 상태 검증, 자체 개선 검증 레이어, 현실적인 작업 생성 파이프라인, 평가 하니스를 통합합니다. 현재 33개의 데스크톱 애플리케이션과 1,000개의 최종 작업으로 구성되어 있습니다.
OpenComputer의 하드 코딩된 검증기는 LLM 평가보다 인간 판단과 더 일치하며, 특히 앱 상태에 따라 성공 여부가 결정될 때 더욱 그렇습니다. 최첨단 에이전트는 부분적인 진행에도 불구하고 엔드투엔드 완료에 어려움을 겪습니다.
오픈 소스 모델은 OSWorld-Verified 점수에서 급격히 하락하는 경향을 보이며, 견고한 컴퓨터 자동화에 있어 지속적인 격차를 드러냅니다.