MLE-bench는 AI 에이전트가 머신러닝 엔지니어링 업무를 얼마나 잘 수행하는지 측정하기 위한 새로운 벤치마크입니다. 이 벤치마크는 머신러닝 엔지니어링 파이프라인의 다양한 측면을 평가하여 AI 에이전트의 성능을 객관적으로 비교할 수 있도록 설계되었습니다. MLE-bench를 통해 AI 에이전트의 발전 과정을 추적하고, 머신러닝 엔지니어링 자동화 연구를 가속화할 수 있을 것으로 기대됩니다.