Pulse · AI 뉴스

CUDA: MMQ 스트림-k 오버헤드 감소

llama.cpp · 2026-04-25

llama.cpp 프로젝트에서 CUDA를 이용한 프롬프트 처리 속도를 향상시키는 Pull Request가 제출됐어요.

MMQ(Multi-Query) 스트림-k 오버헤드를 줄여 MoE(Mixture of Experts) 모델의 성능을 개선하는 내용이 담겼어요.

GitHub에서 관련 Pull Request와 논의 내용을 확인할 수 있어요.

##CUDA##llama.cpp##MoE##성능개선

매일 핵심 AI 소식을 한국어로, 빠르게