LordNeel이 Ornith-1.0-35B GGUF 모델에 MTP 결합을 적용한 업데이트를 공개했어요. 이 업데이트는 단일 GPU 환경에서 추론 속도를 1.3~1.35배 향상시켰어요.
새로운 IQ4_XS-MTP 결합은 이전 Q4_K_M 모델보다 KLD 점수가 개선되었지만, 장기 생성 시 약간의 토큰 불일치 문제가 발생했어요.
새로운 업데이트는 다양한 양자화 수준에 따른 처리량, p95 TTFT, 장문 컨텍스트 TTFT 성능 지표를 포함하며, Hugging Face에서 확인 가능해요.