SANA-Streaming은 실시간 스트리밍 영상 편집을 위한 시스템·알고리즘 공동 설계 프레임워크입니다. 하이브리드 디퓨전 트랜스포머 아키텍처, Cycle-Reverse 정규화, 효율적인 시스템 공동 설계의 세 가지 핵심 디자인을 특징으로 합니다.
Cycle-Reverse 정규화는 흐름 매칭을 통해 생성된 콘텐츠에서 원본 프레임을 예측하여 의미론적 일관성을 강화하고, 시간적 일관성을 높이는 새로운 학습 전략입니다.
SANA-Streaming은 단일 RTX 5090 GPU에서 24 FPS의 실시간 1280x704 해상도 편집을 달성하며, 기존 SOTA 방법보다 시간적 일관성과 시스템 처리량 모두에서 뛰어난 성능을 보입니다.