Pulse · AI 뉴스

DiagFlowBench: 절차 이탈 입력에 대한 언어 모델 평가

arXiv cs.AI · 2026-06-16

연구진이 산업 현장 진단 대화에서 언어 모델의 절차 이탈 입력 처리 능력을 평가하는 DiagFlowBench 데이터셋을 공개했어요. 데이터셋은 50개의 산업용 진단 흐름도를 기반으로 1,676개의 대화로 구성돼요. 상업용 및 오픈소스 모델 10개를 평가한 결과, 모델마다 회피율에 큰 차이가 있었고, 실제 단계는 선택하지만 문맥에 맞지 않는 답변을 하는 경향이 있었어요.

##진단##대화형AI##언어모델##오프프로시저##DiagFlowBench
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기