연구진은 OS 에이전트의 안전성, 효율성, 견고성을 종합적으로 분석할 수 있는 OS-SPEAR 도구를 개발했어요. OS-SPEAR는 안전성, 성능, 효율성, 견고성 4가지 측면을 평가하는 데이터셋과 분석 도구를 제공하며, 다양한 환경적 위험과 사용자 유도 위험을 포함해요. 실험 결과, 효율성과 안전성/견고성 간의 균형이 부족하고, 특화된 에이전트가 범용 모델보다 성능이 우수하며, 다양한 모달리티에서 견고성 취약점이 발견되었어요.