Claude가 GLM-5.2를 능가하는 벤치마크 결과, Anthropic의 우수한 모델 아키텍처나 훈련 파이프라인 때문이라고 단정하기는 어렵습니다.
Anthropic은 추론 외에 RAG, 프롬프트 전처리, 내부 도구 호출 등 다양한 기술을 활용할 수 있으며, 이는 Claude의 성능을 향상시킬 수 있습니다.
벤치마크는 Claude 제품 전체를 평가하는 것이므로, 오픈형 모델과 직접적인 비교가 어려울 수 있으며, 실제로는 Claude가 오픈형 모델보다 우수한 단일 모델을 사용하지 않을 수도 있습니다.