CCCL은 LLM 워크로드의 집단 통신 오버헤드를 줄이기 위해 개발된 새로운 라이브러리에요. 사용자 코드 수정 없이 allreduce, alltoall, send/recv 연산을 지원하며, 기존 애플리케이션에 쉽게 적용할 수 있어요. 압축 커널을 결합하여 메모리 접근을 최소화하고 NCCL과 통합하여 데이터 결합 단계를 없애 최대 3배의 NVLink 대역폭을 달성했어요.