연구진이 전문 영상 편집 워크플로우 평가를 위한 CutVerse 벤치마크를 공개했어요. Premiere Pro, Photoshop 등 7개 앱의 186개 복잡한 편집 작업을 포함하며, 긴 호라이즌과 밀접하게 결합된 인터랙션 시퀀스를 다뤄요. 기존 GUI 에이전트는 현실적인 미디어 편집 작업에서 36%의 낮은 성공률을 보여, 전문적인 워크플로우의 어려움을 드러냈어요.
CutVerse는 화면 녹화와 인터랙션 로그를 구조화된 GUI 액션 트래jectory로 변환하는 경량 파서를 제공해 확장 가능한 평가를 지원해요. 연구 결과, 현재 모델은 공간적 정렬, 다중 모드 정렬, 조정된 액션 실행에 강점을 보이지만, 장기적인 신뢰성과 도메인 특화 계획에 한계가 있는 것으로 나타났어요.
연구진은 CutVerse를 통해 GUI 에이전트의 전문 창작 워크플로우에서의 활용 가능성을 탐색하고, 향후 연구 방향을 제시하며, 복잡한 미디어 편집 작업에서 에이전트의 성능 향상을 위한 과제를 강조했어요.