Pulse · AI 뉴스

RTX 5090에서 Qwen3.6 활용, 3,000 tok/s 이상 달성 가능할까?

Qwen · 2026-05-16

Fred Zhangzhi Peng, Shuibai Zhang, Alex Tong이 AR을 디퓨전 방식으로 변환하는 코드를 개발했습니다.

Qwen3.6 모델을 기반으로 LDLM(LDLM)을 적용하여 RTX 5090에서 최대 3,238 tok/s의 추론 처리량을 달성했습니다.

짧은 시퀀스 길이(64 토큰)에서 테스트되었으며, 더 긴 시퀀스는 처리량을 감소시킵니다. 35B-A3B 모델은 MoE(Mixture of Experts) 구조로 인해 더 빠른 속도를 보입니다.

##LLM##Qwen##RTX5090##디퓨전

매일 핵심 AI 소식을 한국어로, 빠르게