연구진이 5B 파라미터의 효율적인 비디오 생성 및 편집 통합 아키텍처 LoomVideo를 공개했어요. LoomVideo는 텍스트 인코더를 MLLM으로 대체하고 Deepstack 주입 메커니즘을 활용하여 DiT와 멀티 레이어 MLLM 특징을 정렬해요. 새로운 Scale-and-Add 컨디셔닝 방식은 토큰 연결 없이 비디오 편집을 가능하게 하여 계산 비용을 크게 줄이고 복잡한 편집 기능을 유지해요.