Pulse · AI 뉴스

ParallelKernelBench: 최첨단 LLM은 빠른 멀티 GPU 커널을 작성할 수 없다 (아직)

ParallelKernelBench · 2026-06-23

ParallelKernelBench는 LLM이 87개의 실제 워크로드에서 빠른 멀티 GPU CUDA 커널을 작성할 수 있는지 테스트합니다.

최고 성능 모델은 3분의 1 미만의 시간을 해결하지만, 일부 생성된 커널은 공개 구현물보다 뛰어납니다.

이 연구는 LLM이 하드웨어 최적화 코딩에 어려움을 겪고 있음을 시사합니다.

##LLM##CUDA##커널##병렬처리##AI

매일 핵심 AI 소식을 한국어로, 빠르게