Pulse · AI 뉴스

GLM, '불안정'한 모델인가? 벤치마크 결과 주목

GLM · 2026-05-07

GLM 모델이 모호한 입력과 명확한 입력에 대해 상반된 반응을 보여, 내부적인 판단 기준의 불안정성이 지적됐습니다.

plan_mode, plan_mode_stress, tool_calling 등 다양한 벤치마크에서 GLM-4.7-flash 모델의 성능이 다른 모델 대비 상대적으로 낮게 나타났습니다.

Qwen, Gemma, GLM, Qwen3-next-instruct 모델의 벤치마크 결과를 비교 분석한 결과가 Reddit에 공유되었습니다.

##GLM##모델벤치마크##AI모델

매일 핵심 AI 소식을 한국어로, 빠르게