llama.cpp 프로젝트에서 CUDA를 이용한 프롬프트 처리 속도를 향상시키는 Pull Request가 제출됐어요. MMQ(Multi-Query) 스트림-k 오버헤드를 줄여 MoE(Mixture of Experts) 모델의 성능을 개선하는 내용이 담겼어요. GitHub에서 관련 Pull Request와 논의 내용을 확인할 수 있어요.