연구진이 실시간 양방향 오디오·비디오 상호작용을 위한 통합 모델 'Wan-Streamer'를 공개했어요. Wan-Streamer는 언어, 오디오, 비디오를 하나의 Transformer로 처리하며, 기존 파이프라인의 지연과 오류를 줄였어요. 160ms 단위로 스트리밍이 가능하며, 모델 응답 지연은 약 200ms, 전체 상호작용 지연은 약 550ms로, 1초 미만의 양방향 오디오·비디오 통신을 지원해요.