llama.cpp 팀이 RDNA3 아키텍처에서 Flash Attention 문제를 해결하는 수정 사항을 배포했습니다. 이 수정 사항은 AMD GPU 사용자에게 성능 향상을 제공할 것으로 예상됩니다. llama.cpp는 LLM 추론을 위한 C/C++ 라이브러리입니다.