Pulse · AI 뉴스

비디오QA와 비디오 기반 에이전트 작업 연결: 범용 키프레임 추출을 통해

TASKER · 2026-06-28

연구진은 MLLM 기반 GUI 에이전트의 성능을 평가하는 새로운 벤치마크 VG-GUIBench를 발표했어요.

VG-GUIBench는 비디오 튜토리얼을 따라 GUI 작업을 수행하는 에이전트의 능력을 측정하며, 기존 VideoQA 벤치마크의 한계를 보완해요.

TASKER라는 새로운 키프레임 추출 알고리즘을 제안하여 VideoQA와 비디오 기반 에이전트 작업 모두에서 성능을 향상시켰고, 기존 최고 성능 모델보다 각각 2.0% 및 1.8% 개선됐어요.

##비디오QA##에이전트##키프레임##VG-GUIBench##TASKER
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기