Pulse · AI 뉴스

OpenComputer: 검증 가능한 소프트웨어 세상 구축 프레임워크

OpenComputer · 2026-05-19

OpenComputer는 컴퓨터 사용 에이전트를 위한 검증 가능한 소프트웨어 세상을 구축하는 프레임워크입니다. 앱 상태 검증, 자체 개선 검증 레이어, 현실적인 작업 생성 파이프라인, 평가 하니스를 통합합니다. 현재 33개의 데스크톱 애플리케이션과 1,000개의 최종 작업으로 구성되어 있습니다.

OpenComputer의 하드 코딩된 검증기는 LLM 평가보다 인간 판단과 더 일치하며, 특히 앱 상태에 따라 성공 여부가 결정될 때 더욱 그렇습니다. 최첨단 에이전트는 부분적인 진행에도 불구하고 엔드투엔드 완료에 어려움을 겪습니다.

오픈 소스 모델은 OSWorld-Verified 점수에서 급격히 하락하는 경향을 보이며, 견고한 컴퓨터 자동화에 있어 지속적인 격차를 드러냅니다.

##에이전트##검증##자동화##OpenComputer

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기