RightNow AI가 HuggingFace Llama 모델을 단일 CUDA 커널로 컴파일하는 AutoMegaKernel (AMK)을 공개했어요. AMK는 7,160개의 adversarial 스케줄을 검증하여 안전성을 보장하며, 10개의 모델에 대해 정확한 메가커널을 자동 생성해요. AMK는 int8 (W8A16) 메가커널을 통해 NVIDIA 데이터센터 인프라에서 cuBLAS bf16보다 최대 1.33배 빠른 성능을 보여줘요.