Pulse · AI 뉴스

Qwen3.6 27B 모델, 속도 및 품질 최적화

Qwen · 2026-05-23

사용자가 Qwen3.6 27B 모델을 에이전트 하니스에 적용하기 위해 속도 최적화를 시도했어요.

현재 프롬프트 처리 속도는 초당 300~500 토큰, 토큰 생성 속도는 초당 22~30 토큰으로, 100K 컨텍스트 윈도우에서 실행 중이에요.

사용자는 40GB VRAM (2060 Super 8GB 1개, 5060 Ti 16GB 2개) 환경에서 128K 컨텍스트 윈도우를 구현하려 했으나, 100K로 타협했어요.

llama.cpp 명령어를 통해 실행하며, 성능 향상을 위한 추가적인 플래그나 변수 사용 가능성이 있는지 커뮤니티에 문의했어요.

##Qwen##llama.cpp##최적화##에이전트##모델

매일 핵심 AI 소식을 한국어로, 빠르게