b9254 빌드는 TG 회귀 문제를 해결하고 NVIDIA GPU를 위한 PDL(Programmatic Dependent Launch)을 추가했어요.
사용자는 이전 빌드에서 TG 회귀를 경험하며 b9202로 되돌려야 했지만, 이번 빌드에서 TG가 복구되고 2x5060ti 16gb 환경에서 3% 성능 향상을 확인했어요.
PDL은 CUDA 스트림 내 커널 실행을 겹쳐서 실행하여 커널 시작 오버헤드를 줄이는 CUDA 최적화 기술로, CUDA 그래프와 함께 사용하면 성능 향상 효과가 더 큽니다.
PDL를 사용하려면 커널에 GGML_CUDA_PDL_SYNC 동기화 장벽과 GGML_CUDA_PDL_LC 시작 신호를 추가하고 ggml_cuda_kernel_launch() 함수를 사용해야 해요.