연구진은 MLLM 기반 GUI 에이전트의 성능을 평가하는 새로운 벤치마크 VG-GUIBench를 발표했어요.
VG-GUIBench는 비디오 튜토리얼을 따라 GUI 작업을 수행하는 에이전트의 능력을 측정하며, 기존 VideoQA 벤치마크의 한계를 보완해요.
TASKER라는 새로운 키프레임 추출 알고리즘을 제안하여 VideoQA와 비디오 기반 에이전트 작업 모두에서 성능을 향상시켰고, 기존 최고 성능 모델보다 각각 2.0% 및 1.8% 개선됐어요.