Reddit 사용자가 DiffusionGemma 4 모델을 4개의 RX 7900 XTX GPU 환경에서 실행하는 방법을 공유했어요. 초당 100장의 이미지를 생성할 수 있지만, 프롬프트 처리 대기 시간 때문에 총 생성 속도는 초당 45~60장 정도라고 설명했어요.
GPU KV 캐시 크기는 152,671 토큰이며, 최대 동시 요청은 131,072 토큰까지 지원해요. 4장비 환경에서 Docker 이미지를 생성하는 데 상당한 토큰(DeepSeek-v4-pro 기준 2~3M)이 소요돼요.
사용자는 vLLM dgemma 브랜치를 활용해 DiffusionGemma 26B 모델을 실행했으며, 다양한 환경 변수 설정을 통해 성능을 최적화했어요. 엔트로피 바운드 샘플링을 사용해 이미지 품질을 개선했어요.