알리바바가 엔비디아 호퍼 GPU에서 LLM 추론 속도를 최대 3배까지 가속하는 기술 '플래시QLA'를 공개했어요. 플래시QLA는 저수준 연산 최적화를 통해 GPU 커널을 개선하며, 코드와 함께 깃허브에서 오픈소스로 제공되고 있습니다. 이 기술은 LLM 성능 경쟁을 모델 구조 및 하드웨어 영역을 넘어 GPU 커널 최적화로 확장하는 움직임의 일환입니다.