Anthropic의 연구팀은 GPU 활용률을 높이기 위해 연속 배치 처리의 비동기화를 구현하는 방법을 제시했습니다. 기존의 동기식 방식은 CPU와 GPU가 번갈아 가며 작동하여 성능 저하를 야기했습니다.
연구팀은 CUDA 스트림을 활용하여 CPU 배치 준비와 GPU 배치 연산을 병렬로 실행함으로써 GPU 유휴 시간을 줄이고 전체 실행 시간을 단축했습니다.
실험 결과, 비동기식 방식으로 전환했을 때 GPU 유휴 시간은 약 24% 감소했으며, 이는 상당한 성능 향상으로 이어졌습니다. 이 연구는 LLM 추론 효율성을 높이는 데 중요한 기여를 할 것으로 기대됩니다.
연구팀은 8B 모델을 사용하여 8K 토큰을 생성하는 실험에서, 동기식 방식은 총 300.6초가 소요되었으며, GPU 유휴 시간은 24.0%에 달했습니다.
비동기식 방식은 CPU와 GPU 작업을 분리하여 병렬 실행을 가능하게 하며, 이를 통해 GPU 활용률을 극대화하고 LLM 추론 속도를 향상시킬 수 있습니다.