SCAIL-2는 중간 단계를 생략하고 캐릭터 애니메이션을 직접 처리하는 새로운 프레임워크입니다. 기존 방식의 정보 손실 문제를 해결하기 위해 드라이빙 비디오를 직접 연결하여 필요한 시각 정보를 얻습니다.
데이터 부족 문제를 해결하기 위해 다양한 캐릭터 애니메이션 작업을 통합하고 MotionPair-60K 데이터셋을 구축했습니다. 이 데이터셋은 텍스트 지시와 시각 정보를 넘어 in-context 마스크 조건부와 mode-specific RoPE를 활용합니다.
Bias-Aware DPO를 통해 합성 데이터의 불일치를 완화하여 기존 방식보다 성능이 향상되었으며, 관련 데이터와 모델 가중치는 프로젝트 페이지에서 공개됩니다.