연구진이 효율적인 텍스트-비디오 생성 모델 OSP-Next를 공개했어요. 이 모델은 희소 어텐션, 병렬 처리, 양자화, 강화 학습을 통합하여 성능과 효율성을 높였어요.
OSP-Next는 Skiparse-2D 어텐션을 활용한 하이브리드 풀-희소 어텐션 아키텍처를 사용하며, Sparse Sequence Parallelism (SSP)을 통해 기존 방식보다 통신량을 75% 줄였어요.
HiF8 양자화를 적용하여 8비트 양자화와 희소 튜닝을 안정적으로 진행했으며, VBench에서 83.73%의 총 점수를 기록하며 Wan2.1을 능가하는 성능을 보여줬어요.