사용자가 Gemma4-12B 모델을 Tauri2 데스크톱 앱에 통합하는 설정을 공유했어요. 오디오 입력을 지원하며, Metal을 활용한 llama.cpp를 통해 네이티브 Rust FFI를 사용했어요. 첫 번째 추론 성능은 16.8 tok/s를 기록했는데, 이는 모델 로드 후의 성능입니다.
오디오 전처리 및 디코딩 과정을 포함한 전체 경로 속도는 2초의 오디오/프리필 시간과 3.7초의 디코딩 시간을 보여요. 디코딩 속도는 26 tok/s로 측정됐으며, 더 빠른 추론을 위한 개선 방안을 모색 중입니다.
mlx-swift-lm, llama-server, crabnebula-dev/tauri-plugin-llm 등 다른 접근 방식도 고려했지만, 현재 설정이 오디오 지원 및 Gemma4 호환성 측면에서 가장 적합하다고 판단했어요.