연구진이 산업 현장 진단 대화에서 언어 모델의 절차 이탈 입력 처리 능력을 평가하는 DiagFlowBench 데이터셋을 공개했어요. 데이터셋은 50개의 산업용 진단 흐름도를 기반으로 1,676개의 대화로 구성돼요. 상업용 및 오픈소스 모델 10개를 평가한 결과, 모델마다 회피율에 큰 차이가 있었고, 실제 단계는 선택하지만 문맥에 맞지 않는 답변을 하는 경향이 있었어요.