Reddit 사용자가 듀얼 RTX 3090 환경에서 DFlash 및 MTP 기술을 활용한 높은 토큰 처리 속도(tokens per second)를 얻지 못해 질문했어요. 사용자는 Ubuntu 24.04, CUDA 13.0 환경에서 beellama.cpp 및 llama.cpp를 사용하고 있으며, GPU 간 P2P 통신 설정을 완료했습니다.
DFlash를 사용할 때는 beellama.cpp를 빌드하고 권장 드래프트 파일을 다운로드했지만 약 40t/s의 속도를 기록하고 있으며, MTP를 사용할 때는 llama.cpp의 최신 버전을 사용했지만 50t/s 정도의 속도를 보이고 있어요.
기존 Qwen3.5-27B 모델에서는 40t/s를 기록했지만, 새로운 기술을 적용했음에도 불구하고 2~3배 빠른 속도를 얻지 못하는 이유에 대한 질문과 함께 명령어 예시를 공유하며 도움을 요청했어요.