연구진이 복잡한 창작 요구를 충족하는 새로운 동영상 편집 데이터셋 'Goku'를 공개했어요. Goku는 단순 외관 편집을 넘어 다중 작업 및 구조 조작을 포함하는 200만 개의 고품질 동영상 편집 페어를 담고 있어요. Goku-Edit 모델은 MLLM 기반 텍스트 인코더와 구조 제어를 위한 분리된 이중 브랜치 디자인을 채택하여 기존 모델 대비 지침 준수율을 8% 향상시켰어요.
Goku 데이터셋은 복잡한 편집 지침을 해결하기 위해 설계된 효율적인 데이터 합성 파이프라인과 데이터 신뢰성 확보를 위한 점진적 필터링 시스템을 포함하고 있어요. 연구진은 Goku 벤치마크를 통해 7가지 새로운 편집 관련 지표를 제시하고, 인간 검증된 1,000개의 테스트 케이스를 제공했어요. Goku-Edit는 Goku-Bench에서 기존 오픈소스 모델 대비 최대 8% 성능 향상을 기록했어요.