ggml 프로젝트에서 CUDA 성능 개선 및 백엔드 호환성 관련 수정 사항이 적용됐습니다. 토큰 분할 시 동기화 과정을 줄여 CUDA 성능을 향상시키고, CPU-CUDA 데이터 복사 기능을 추가했습니다. Vulkan과 같은 다른 백엔드에서도 활용 가능한 일반적인 동기화 완화 매크로가 추가됐습니다.