연구진은 GUI 에이전트의 장점과 한계점을 극복하기 위해 'Proactive Document-Guided Action'이라는 새로운 패러다임을 제시했어요. 이 패러다임은 에이전트가 필요한 경우 온라인 문서를 검색하고 문제를 해결하도록 돕는 방식이에요.
DocOS는 GUI 에이전트가 웹 브라우저를 탐색하고 관련 문서를 찾아 실행 가능한 GUI 액션으로 변환하는 능력을 평가하는 벤치마크예요.
실험 결과, 에이전트가 관련 정보를 정확하게 찾고 검색된 지침을 정확하게 실행하는 데 어려움을 겪는 것으로 나타났으며, 이는 문서 기반 상호 작용의 중요성을 강조해요.