머신러닝 엔지니어링(MLE) 에이전트는 ML 파이프라인 개발을 자동화하여 ML 접근성을 높일 수 있습니다. 하지만 민감한 분야에서는 설계 선택에 대한 투명성이 부족해 책임 공백이 발생할 수 있습니다. 본 연구는 기존 벤치마크가 MLE 에이전트의 안전성을 평가하기에 부족하다고 주장합니다.
멜라닌 피부톤에 따른 공정성을 책임 제약으로 설정하여 MLE 에이전트 2개를 평가한 결과, 생성된 파이프라인은 예측 품질과 공정성 모두에서 수동 설계 기준선보다 성능이 떨어졌습니다. 공정성 지향 프롬프트에도 불구하고 성능 편차가 컸습니다.
결과적으로 MLE 에이전트가 인간의 개입을 받아들여 ML 파이프라인의 품질과 규정 준수를 신뢰성 있게 평가할 수 있도록 재설계해야 합니다.