사용자가 Qwen3.5-397B 기반 음성-음성 챗봇을 개인적으로 개발했어요. 챗봇은 실시간에 가까운 응답 속도와 인터럽트 기능을 지원하며, 문맥 유지 기능도 포함돼요. 24GB GPU에서 21.3GB VRAM을 사용하며, 시스템 RAM은 약 150GB를 사용해요.
Whisper-small STT와 Orpheus TTS를 활용하여 개발되었으며, GitHub 코드가 곧 공개될 예정이에요. 사용자는 개인적인 프로젝트로 몇 달간 지속적으로 개선해 왔어요.
Qwen3.5는 Q8 KV 캐시에서 문제가 발생하여 bf16 KV 캐시를 사용했으며, 131,072 토큰까지 지원하여 장시간 대화가 가능해요.