llama.cpp 프로젝트가 --SM Tensor 옵션과 양자화된 KV 캐시를 함께 사용할 수 있도록 하는 버그 수정 사항을 병합했어요. 이전에는 KV 캐시 회전에 필요한 shape 정보 손실로 인해 멀티 GPU 환경에서 문제가 발생했었어요. 이번 수정은 ggml backend meta를 확장하여 shape 정보를 유지하고 llama.cpp compute 그래프 변경 없이 문제를 해결했어요.