Pulse · AI 뉴스

듀얼 RTX 3090 환경에서 DFlash/MTP 토큰 처리 속도 향상 방법 문의

llama.cpp · 2026-05-17

Reddit 사용자가 듀얼 RTX 3090 환경에서 DFlash 및 MTP 기술을 활용한 높은 토큰 처리 속도(tokens per second)를 얻지 못해 질문했어요. 사용자는 Ubuntu 24.04, CUDA 13.0 환경에서 beellama.cpp 및 llama.cpp를 사용하고 있으며, GPU 간 P2P 통신 설정을 완료했습니다.

DFlash를 사용할 때는 beellama.cpp를 빌드하고 권장 드래프트 파일을 다운로드했지만 약 40t/s의 속도를 기록하고 있으며, MTP를 사용할 때는 llama.cpp의 최신 버전을 사용했지만 50t/s 정도의 속도를 보이고 있어요.

기존 Qwen3.5-27B 모델에서는 40t/s를 기록했지만, 새로운 기술을 적용했음에도 불구하고 2~3배 빠른 속도를 얻지 못하는 이유에 대한 질문과 함께 명령어 예시를 공유하며 도움을 요청했어요.

##DFlash##MTP##llama.cpp##RTX3090##GPU

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기