Pulse · AI 뉴스

CODA: 트랜스포머 블록을 GEMM-에필로그 프로그램으로 재작성

CODA · 2026-05-23

연구진은 트랜스포머 학습 시스템에서 메모리 병목 현상을 해결하기 위해 CODA라는 새로운 GPU 커널 추상화를 도입했어요. CODA는 트랜스포머 연산자를 GEMM(일반 행렬 곱셈)과 에필로그 프로그램으로 재구성하여 데이터 이동을 최소화해요. 실험 결과, CODA는 기존 방식과 견줄 만한 성능을 보여주며, 하드웨어 효율성을 높이는 실용적인 방법으로 평가받고 있어요.

CODA는 GEMM 메인 루프를 고정하고 스케일링, 축소, 쌍별 변환, 누적을 위한 에필로그 원시 함수를 노출하여 전문가가 작성한 GEMM의 성능 구조를 유지하면서도 트랜스포머 블록의 순방향 및 역방향 패스에서 대부분의 연산을 커버할 수 있도록 설계됐어요. 이는 메모리 바운드 연산의 효율성을 높이는 데 기여해요.

CODA 추상화를 사용하면 기존 프레임워크 커널로 노출되는 많은 트랜스포머 연산자를 대수적으로 재구성하여 GEMM 출력 타일이 칩에 남아 있는 동안 실행할 수 있으며, 메모리에 기록되기 전에 실행할 수 있어요.

##트랜스포머##GPU##커널##최적화
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기