NVIDIA가 Nemotron-Labs-Diffusion 모델을 공개했어요. 이 모델은 AR 디코딩과 디퓨전 기반 병렬 디코딩을 상황에 따라 전환할 수 있어요.
셀프 스펙ুলে이션 모드를 통해 초안 작성과 검증을 동시에 수행하며, 기존 방식보다 더 긴 문장 생성과 효율적인 디코딩이 가능해요.
3B, 8B, 14B 파라미터 모델을 제공하며, SGLang 벤치마크에서 Qwen3-8B-Eagle3 대비 3배 더 높은 수용 길이와 2.2배 빠른 속도를 보여줘요.