llama.cpp 프로젝트가 F16 마스크를 사용하여 FA(Flash Attention)를 구현하여 VRAM 사용량을 줄이는 변경 사항을 적용했어요. 이 변경 사항은 더 많은 VRAM을 확보하여 더 큰 모델을 로드하거나 더 큰 배치 크기를 사용할 수 있도록 해줘요. 사용자는 llama.cpp의 새 버전을 다운로드하여 이 기능을 활용할 수 있어요.