Reddit 사용자가 PyTorch에서 CUDA로 LLM을 컴파일하는 과정을 설명하는 프로젝트를 공개했어요. 기존 복잡한 컴파일러 스택을 대체하기 위해 순수 파이썬과 CUDA를 활용했어요. 이 컴파일러는 Torch IR부터 CUDA까지 여러 단계를 거치며, 기존 PyTorch Eager 방식 대비 50~90%의 성능을 보여줘요. 프로젝트는 GitHub에 공개되었으며, 각 단계별로 검사 및 디버깅이 가능하도록 설계되어 있어 수정이 용이해요.