연구자가 NVIDIA의 DVLT 3D 트랜스포머 모델을 위한 추론 엔진 'dvlt.cu'를 개발했어요. 이 엔진은 5MB 단일 바이너리로, Python, PyTorch, TensorFlow 등 런타임 의존성 없이 작동해요. mmap'd BF16 가중치를 사용하고, GPU에 한 번 업로드하여 정적 차원을 활용하는 방식으로 작동하며, 사용 편의성을 높였어요.