연구진이 이미지와 비디오를 통합적으로 이해, 생성, 편집하는 경량 모델 'Lance'를 공개했어요. 모델 용량 확장이나 텍스트·이미지 중심 설계 대신 다중 작업 협력 훈련을 통해 통합 모델링을 실현했어요.
Lance는 통합 컨텍스트 모델링과 분리된 기능 경로라는 두 가지 핵심 원칙에 기반하며, 혼합 전문가 아키텍처를 활용해 이미지와 비디오 시퀀스를 공동으로 학습해요.
실험 결과, Lance는 기존 오픈소스 통합 모델보다 이미지와 비디오 생성 성능이 뛰어나고, 강력한 다중 모드 이해 능력을 유지하는 것으로 나타났어요.