LordNeel이 InternScience의 Agents-A1 모델을 기반으로 Qwen3.5-MoE 아키텍처를 사용한 35B 에이전트 모델의 GGUF 양자화 모델을 공개했어요. 이 모델은 장기 검색, 도구 호출, 과학/공학 에이전트 작업에 적합합니다.
Blackwell GPU에 최적화된 NVFP4 빌드와 실시간 예측 디코딩을 위한 MTP(Multi-Token Prediction)가 적용됐으며, 단일 사용자 환경에서 최대 1.22배 속도 향상과 초안 수락률 91%를 달성했어요.
IQ4_XS는 압축에 적합하고, Q5_K_M/Q6_K는 BF16에 가까운 성능을 제공하며, MTP 변형을 사용할 때는 Q4_K_M보다 IQ4_XS 또는 Q5_K_M을 사용하는 것이 좋다고 설명돼요.