Snowflake AI Research에서 GPU 커널 생성 LLM 에이전트의 성능 향상을 저해하는 벤치마크 미흡 문제를 지적했어요. FastKernels는 46개의 대표 아키텍처로 구성된 벤치마크로, Hugging Face Transformers 아키텍처의 96.2%를 포괄해요. FastKernels는 vLLM, SGLang과 동등한 성능을 내며, 실제 시스템에 바로 적용 가능한 최소한의 프로덕션급 추론 프레임워크를 제공해요.