GLM 모델이 모호한 입력과 명확한 입력에 대해 상반된 반응을 보여, 내부적인 판단 기준의 불안정성이 지적됐습니다. plan_mode, plan_mode_stress, tool_calling 등 다양한 벤치마크에서 GLM-4.7-flash 모델의 성능이 다른 모델 대비 상대적으로 낮게 나타났습니다. Qwen, Gemma, GLM, Qwen3-next-instruct 모델의 벤치마크 결과를 비교 분석한 결과가 Reddit에 공유되었습니다.