연구진은 LLM 기반 Triton 커널 생성의 한계와 원인을 파악하기 위해 176개의 작업과 15개 카테고리를 평가하는 벤치마크 KernelBench-X를 발표했습니다.
KernelBench-X 분석 결과, 작업 구조가 방법 설계보다 정확성에 더 큰 영향을 미치며, 반복적인 개선은 정확성을 높이지만 성능은 오히려 저하시키는 것으로 나타났습니다.
정확성이 높다고 해서 효율성이 보장되는 것은 아니며, 46.6%의 커널이 PyTorch 기준보다 느리고, 하드웨어 간 속도 차이가 최대 21.4배까지 나타났습니다.