Reddit 사용자가 Hermes Agent와 'Owl-Alpha' 모델을 활용해 Gemma 4(2B, 4B)를 LiteRT 엔진으로 변환하는 방법을 공유했어요. LiteRT는 Google이 개발한 경량화된 추론 엔진입니다.
Gemma 4 2B 모델은 기존 API 방식 대비 2.5배 빠른 속도를 보여줬으며, 이미지 분석 속도도 개선됐어요. 현재는 모델 전환 시 프레임워크 재시작이 필요하지만, 향후 개선될 예정입니다.
오디오 입력 기능도 지원하며, 이는 llama.cpp 기반 Gemma 4 구현체에서는 찾아보기 힘든 특징입니다. 관련 Python wrapper 코드는 공유할 예정이며, 더 나은 구현을 위한 아이디어를 기대하고 있어요.