FactoryBench는 산업용 로봇의 텔레메트리 데이터를 활용한 시계열 모델 및 LLM 평가 벤치마크입니다.
벤치마크는 Pearl의 인과관계 사다리에 따라 질문과 답변 쌍을 구성하고, 정형화된 답변은 결정적으로 점수, 자유 형식 답변은 LLM 심판 투표 프로토콜로 평가합니다.
6개의 최첨단 LLM을 평가한 결과, 구조화된 수준에서 50%를 넘지 못하고 의사 결정에서는 18%를 기록하며, 현재 모델과 실제 로봇 이해 능력 간의 격차가 크다는 것을 보여줍니다.