새로운 벤치마크인 Structured Output Benchmark(SOB)는 JSON 스키마와 타입뿐 아니라 값의 정확성까지 검증해요. GLM 4.7이 GPT 5.4 바로 아래로 2위를 기록하며 오픈소스 모델의 성능이 꽤 괜찮은 것으로 나타났어요. SOB는 값 정확도, JSON 통과율, 타입 안전성 등 7가지 주요 지표를 측정하며, 코드와 데이터셋은 오픈 소스로 공개되었어요.