Pulse · AI 뉴스

텍스트 생성 4배 더 빠르게…구글, '디퓨전젬마' 공개

Gemma · 2026-06-11

구글딥마인드가 텍스트 디퓨전 방식을 적용한 오픈소스 모델 '디퓨전젬마'를 공개했어요. 이 모델은 토큰을 한 번에 생성하는 방식으로 기존 모델보다 최대 4배 빠른 속도를 낼 수 있어요. 260억 파라미터 규모의 MoE 구조를 기반으로 하며, 연구 및 실험 목적으로 활용 가능해요.

디퓨전젬마는 엔비디아 H100 GPU에서 초당 1000개 이상 토큰을 생성하며, RTX 5090에서는 초당 700개 이상 토큰을 처리할 수 있어요. 18GB VRAM 환경에서도 구동 가능하며, 복잡한 마크다운 형식 마무리 및 코드 생성에 강점을 보여요.

구글딥마인드는 디퓨전젬마가 속도가 중요한 로컬 워크플로를 연구하는 개발자를 위해 설계됐다고 밝혔어요. 전체 출력 품질은 기존 젬마4 모델보다 낮을 수 있지만, 대규모 클라우드 환경에서는 자기회귀 모델과 속도 우위가 줄어들 수 있어요.

##모델출시##오픈소스##구글
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기