Pulse · AI 뉴스

산업 현장 LLM 지식 한계 탐색: IndustryBench 벤치마크 공개

IndustryBench · 2026-05-11

연구진은 산업 조달 QA를 위한 중국어 벤치마크 'IndustryBench'를 공개했는데, 중국 국가 표준(GB/T)과 산업 제품 기록을 기반으로 2,049개의 질문으로 구성돼 있습니다.

Qwen3-Max 모델이 도메인 전문가와 비교하여 0.798의 높은 일치도를 보였으며, 표준 및 용어 이해가 가장 취약한 부분으로 나타났습니다.

안전 위반 점수를 고려했을 때 GPT-5.4는 순위가 상승하고 Kimi-k2.5-1T-A32B는 하락하는 등 LLM 평가에 안전성 점검이 중요하다는 것을 보여줍니다.

##IndustryBench##LLM##산업##벤치마크##안전
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기