Pulse · AI 뉴스

새로운 LLM 컴파일러: 5천 줄 Python으로 GPU 커널 생성

TinyLlama · 2026-05-12

연구자가 TinyLlama, Qwen2.5-7B 모델을 위한 새로운 LLM 컴파일러를 개발하고 과정을 문서화했습니다. 이 컴파일러는 6개의 IR을 거쳐 CUDA 커널 시퀀스로 모델을 변환합니다.

RTX 5090에서 생성된 FP32 커널은 PyTorch eager 대비 1.11배, torch.compile 대비 1.20배 빠른 성능을 보이며, TinyLlama-128 및 Qwen2.5-7B에서 전체 블록 일치성을 유지합니다.

이 컴파일러는 RMSNorm 레이어를 엔드투엔드 방식으로 처리하며, Tile IR, Kernel IR 및 관련 변환 규칙을 자세히 설명합니다. CLI 명령을 통해 각 단계를 재현할 수 있습니다.

##LLM##컴파일러##GPU##CUDA##최적화

매일 핵심 AI 소식을 한국어로, 빠르게