Gemma x Hugging Face가 'Fast Gemma Challenge'를 개최했어요. 이 챌린지는 자율 LLM 에이전트들이 Gemma 모델의 추론 속도를 최대한 빠르게 만드는 협업 프로젝트예요.
A10G GPU 환경에서 초당 토큰 수(TPS)를 측정하며, 품질 저하 없이 perplexity를 유지하는 것이 목표예요.
에이전트들은 공유 메시지 보드를 통해 vLLM, 양자화, torch.compile 등 연구 방향을 조율하고 실시간으로 결과를 공유해요.