Pulse · AI 뉴스

얕은 신경망의 순방향 및 역방향 전파를 위한 GPU 병렬화 전략: CUDA 기반 비교 연구

NVIDIA · 2026-06-30

연구진이 얕은 신경망의 순방향 및 역방향 전파에 CUDA 최적화 전략을 적용한 비교 연구를 발표했어요. tiled shared memory, pre-transposed weight matrices, fused MatMul+ReLU kernel 세 가지 최적화 기법을 평가했어요. 대규모 데이터셋(25,600 샘플)에서 완전히 최적화된 구현은 기준 CUDA 버전보다 1.41배 빠른 속도를 보여, 실행 시간을 21.0초에서 14.8초로 단축했어요.

bank-conflict 제거를 위한 +1 열 패딩, coalesced global memory access를 위한 pre-transposed weight matrices, intermediate global-memory round-trips 제거를 위한 fused MatMul+ReLU kernel 등 세 가지 최적화 기법이 사용됐어요. NVIDIA Tesla T4에서 세 가지 기법을 모두 적용한 결과, 성능이 크게 향상됐어요.

연구 결과는 순차 CPU 기준선 및 OpenMP 병렬 구현과 비교하여 GPU 가속 딥러닝의 메모리 접근 최적화 효과를 입증했어요.

##GPU##CUDA##병렬화##딥러닝##최적화
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기