연구진이 다양한 멀티모달 그래픽 작업을 위한 통합 프레임워크 UniVidX를 공개했습니다. UniVidX는 기존 방식의 개별 모델 훈련의 한계를 극복하고, 입력-출력 매핑을 고정하지 않으며 다양한 모달 간의 상관관계를 모델링합니다.
UniVidX는 Stochastic Condition Masking (SCM), Decoupled Gated LoRA (DGL), Cross-Modal Self-Attention (CMSA) 등 세 가지 핵심 디자인을 기반으로 합니다. SCM은 훈련 시 모달을 무작위로 분할하여 양방향 조건부 생성을 가능하게 합니다.
연구 결과, UniVidX는 RGB 영상과 intrinsic 맵, 그리고 혼합 RGB 영상과 RGBA 레이어 등 두 가지 도메인에서 최첨단 성능에 버금가는 결과를 보여주었으며, 1,000개 미만의 영상으로 훈련하여 실제 환경에서도 강력한 일반화 능력을 보였습니다.