연구진은 산업 조달 QA를 위한 중국어 벤치마크 'IndustryBench'를 공개했는데, 중국 국가 표준(GB/T)과 산업 제품 기록을 기반으로 2,049개의 질문으로 구성돼 있습니다.
Qwen3-Max 모델이 도메인 전문가와 비교하여 0.798의 높은 일치도를 보였으며, 표준 및 용어 이해가 가장 취약한 부분으로 나타났습니다.
안전 위반 점수를 고려했을 때 GPT-5.4는 순위가 상승하고 Kimi-k2.5-1T-A32B는 하락하는 등 LLM 평가에 안전성 점검이 중요하다는 것을 보여줍니다.