Pulse · AI 뉴스

Llama 벤치마크와 실제 성능 차이 심각… 원인 분석 및 해결 방법 문의

Qwen · 2026-06-18

Reddit 사용자가 Qwen 3.6-35B 모델의 벤치마크 속도와 실제 사용 시 성능 차이로 어려움을 겪고 있습니다.

IQ4XS로 변경하여 벤치마크에서는 700tk/s의 빠른 프리필 속도를 보였으나, 실제 사용 시 토큰당 7.79ms, 초당 128.30 토큰의 느린 속도를 나타냅니다.

사용자는 RTX 4060 노트북 GPU 환경에서 Llama 서버 설정을 조정해봤지만 문제 해결에 어려움을 느끼며, 원인 분석 및 해결 방법을 문의했습니다.

##Llama##Qwen##성능##최적화##GPU

매일 핵심 AI 소식을 한국어로, 빠르게