엔비디아가 구글딥마인드의 '디퓨전젬마'를 GPU에 최적화해 로컬 AI 추론 속도를 높였다고 밝혔어요. 디퓨전젬마는 기존 방식보다 최대 4배 빠른 성능을 제공하며, 텍스트 블록을 병렬로 생성하는 구조예요.
이 모델은 260억 파라미터를 가진 전문가 혼합 모델로, 연구 및 실험 목적으로 사용 가능하며 아파치 2.0 라이선스 기반으로 공개됐어요.
엔비디아는 RTX, DGX 스파크 등 다양한 플랫폼에서 디퓨전젬마를 지원하며, 향후 라마.cpp 지원도 추가될 예정이에요.