K-MetBench는 한국 기상 전문가를 위한 다차원 평가 벤치마크로, 국가 자격 시험을 기반으로 합니다. 55개 모델 평가 결과, 전문적인 도표 해석 능력 부족과 논리적 오류를 보이는 현상이 확인됐어요. 국내 모델이 지역적 맥락에서는 더 높은 성능을 보여, 단순 규모 확신만으로는 문화적 의존성을 해결할 수 없음을 입증했어요.