llama.cpp 프로젝트가 NVFP4와 MTP를 동시에 지원하는 업데이트를 공개했어요. 이 기능은 NVIDIA GPU를 활용한 추론 성능을 향상시키는 데 기여할 것으로 보입니다. NVFP4와 MTP는 NVIDIA GPU의 특정 기능을 활용하여 모델 추론 속도를 높이는 기술이에요. llama.cpp에 통합되면서 더 많은 사용자가 고성능 LLM 추론 환경을 구축할 수 있게 됐어요.