연구진이 산업 최적화 에이전트의 신뢰성 평가를 위한 OR-Space 벤치마크를 공개했어요. OR-Space는 모델 구축, 수정, 설명 등 풀 라이프사이클 워크플로우를 평가하며 기존 벤치마크의 단점을 보완해요. Build, Revise, Explain 세 가지 모드로 구성되어 있으며, 비즈니스 문서, 데이터, 코드, 솔버 결과 등 다양한 아티팩트를 활용해 에이전트의 성능을 측정해요.