네모트론-랩스가 새로운 디퓨전 언어 모델(DLM)을 공개하여 토큰 생성 방식을 혁신했습니다. 기존의 자동 회귀(AR) 방식은 토큰 하나하나를 순차적으로 생성하며, 이전 토큰에 의존하여 속도 제한을 겪었습니다.
네모트론-랩스 디퓨전은 여러 토큰을 병렬로 생성하고 반복적으로 개선하는 방식으로 작동하여 GPU 활용도를 높이고 성능을 향상시킵니다. 또한 생성된 토큰을 수정할 수 있어 기존 텍스트 수정 및 빈칸 채우기 작업에 적합합니다.
3B, 8B, 14B 규모의 텍스트 모델과 8B 규모의 비전-언어 모델(VLM)을 공개했으며, 다양한 추론 모드를 지원하여 개발자가 속도와 정확도 사이의 균형을 맞출 수 있도록 돕습니다. 8B 모델은 Qwen3 8B 대비 평균 정확도가 1.2% 향상되었으며, 디퓨전 모드는 AR 모델보다 최대 6.4배 빠른 속도를 제공합니다.