Qwen3.6-27B-UD-Q6_K_XL 모델을 활용해 llama-server 사용자 맞춤 샘플링 로직을 추가하는 확장 아이디어가 제안됐어요. 사용자는 llama-server 포크 없이, 별도 래퍼 구현 없이도 샘플링 로직을 추가할 수 있어요.
반복되는 토큰 문제를 해결하는 샘플러 확장 예시가 포함되어 있으며, 툴 호출, 문법 전환, SQL 쿼리 테이블 참조 보장 등 다양한 실험적 샘플링 접근 방식이 가능해요.
MTP 병합 후 최신 master 브랜치를 기반으로 개발되었으며, speculative decoding과도 호환됩니다.