구글딥마인드가 텍스트 디퓨전 방식을 적용한 오픈소스 모델 '디퓨전젬마'를 공개했어요. 이 모델은 토큰을 한 번에 생성하는 방식으로 기존 모델보다 최대 4배 빠른 속도를 낼 수 있어요. 260억 파라미터 규모의 MoE 구조를 기반으로 하며, 연구 및 실험 목적으로 활용 가능해요.
디퓨전젬마는 엔비디아 H100 GPU에서 초당 1000개 이상 토큰을 생성하며, RTX 5090에서는 초당 700개 이상 토큰을 처리할 수 있어요. 18GB VRAM 환경에서도 구동 가능하며, 복잡한 마크다운 형식 마무리 및 코드 생성에 강점을 보여요.
구글딥마인드는 디퓨전젬마가 속도가 중요한 로컬 워크플로를 연구하는 개발자를 위해 설계됐다고 밝혔어요. 전체 출력 품질은 기존 젬마4 모델보다 낮을 수 있지만, 대규모 클라우드 환경에서는 자기회귀 모델과 속도 우위가 줄어들 수 있어요.