ParallelKernelBench는 LLM이 87개의 실제 워크로드에서 빠른 멀티 GPU CUDA 커널을 작성할 수 있는지 테스트합니다. 최고 성능 모델은 3분의 1 미만의 시간을 해결하지만, 일부 생성된 커널은 공개 구현물보다 뛰어납니다. 이 연구는 LLM이 하드웨어 최적화 코딩에 어려움을 겪고 있음을 시사합니다.