연구진이 트레이닝 없이 대화형 비디오 월드 모델의 추론 속도를 높이는 Light Interaction 프레임워크를 개발했어요. 사용자가 카메라 움직임을 제어하며 비디오를 생성하는 데 필요한 연산량을 줄이는 방식이에요. HY-WorldPlay와 Matrix-Game-3.0에서 최대 2.59배 속도 향상을 달성했어요.
Light Interaction은 공간 메모리 삭제, 시간 컨텍스트 조정, 초기 모델 출력 재사용 등 상호작용에 따른 적응형 연산 방식을 활용해요. 이를 통해 메모리 사용량과 연산 복잡도를 줄였어요.
3D 블록 희소 어텐션과 Triton 커널을 결합하여 하드웨어와 소프트웨어를 공동으로 설계하여 성능을 최적화했어요.