연구진이 장편 비디오 생성 평가의 어려움을 해결하기 위해 개인 맞춤형 멀티 에이전트 진단 벤치마크인 DirectorBench를 공개했어요.
DirectorBench는 80개의 구조화된 메타데이터 항목, 7개의 사용자 프로필, 5가지 차원을 평가하며, 기존 벤치마크의 한계를 극복하고 워크플로우 실패와 사용자 선호도를 진단합니다.
DirectorBench는 4가지 워크플로우, 6개의 기본 LLM, 7개의 사용자 프로필을 평가하여 전환 품질이 주요 병목 현상이며, 프롬프트 수준의 사용자 요구 충족은 평균 0.71임을 밝혀냈어요.