Google DeepMind이 26B 파라미터 MoE 아키텍처 기반 디퓨전 모델 'DiffusionGemma'를 공개했어요. 이 모델은 텍스트, 이미지, 비디오 입력을 받아 텍스트 출력을 생성하는 멀티모달 모델이에요.
기존 모델보다 토큰 생성 속도를 높이고 다양한 하드웨어 환경에 배포할 수 있도록 설계되었으며, 블록 오토 회귀 멀티 캔버스 샘플링 방식을 통해 토큰을 병렬로 생성해 속도를 향상시켰어요.
DiffusionGemma는 8개의 활성 전문가를 사용하는 MoE 설계를 통해 추론 능력을 향상시키면서도 메모리 사용량을 줄여 로컬 환경에서도 실행 가능하며, Thinking Mode를 통해 추론 능력을 강화했어요.