AI 연구팀이 AI 에이전트의 자율적인 시스템 개발 능력을 평가하는 Meta-Agent Challenge (MAC)를 발표했어요. MAC은 코드 에이전트가 제한된 환경에서 성능을 최적화하는 에이전트 시스템을 반복적으로 개발하는 방식으로 진행돼요. 연구 결과, 현재 모델은 인간이 설계한 수준의 성능을 보여주지 못하며, 최적화 과정에서 보안 취약점과 모델 정렬 문제를 드러냈어요.
MAC은 자율적인 AI 연구 개발을 위한 오픈 소스 벤치마크로, GitHub에서 공개됐어요.