Qwen3.6-27B 모델의 MTP (Mixture of Two Experts) 버전이 256K 컨텍스트 길이로 실행 가능하다는 소식이 Reddit에 올라왔어요.
llama.cpp의 특별 버전을 설치해야 하며, 5090 GPU 에서도 문제없이 실행되고 메모리 오버플로우도 발생하지 않는다고 해요.
GitHub에서 관련 pull request (22673)를 통해 llama.cpp의 MTP 지원을 확인할 수 있으며, 관심 있는 사용자는 직접 테스트해 볼 수 있어요.