연구진이 짧은 동영상 플랫폼에서 GUI 에이전트의 성능을 평가하는 LivingScreen 벤치마크를 공개했어요. LivingScreen은 실제 인터페이스 환경을 반영하여 정확도와 정보 효율성을 동시에 측정합니다. 현재 주요 모델들은 인간 수준의 성능에 미치지 못하며, 과도한 관찰과 부족한 관찰이 주요 실패 요인으로 나타났어요.
LivingScreen 벤치마크는 브라우저 기반 환경, 3단계 작업 세트, 정확도와 정보 효율성을 함께 평가하는 지표로 구성돼 있어요. 연구 결과, 현재 GUI 에이전트는 관찰 제어 능력 부족으로 한계점을 드러냈으며, 이는 향후 GUI 에이전트 개발 방향을 제시합니다.
LivingScreen 벤치마크 데이터와 코드는 GitHub에서 공개될 예정이며, GUI 에이전트의 성능 평가와 개선 방향을 모색하는 데 기여할 것으로 기대됩니다.