IBM과 UC 버클리는 IT-Bench와 MAST(Multi-Agent System Failure Taxonomy)를 활용하여 기업 IT 자동화 환경에서 에이전트 실패 원인을 진단했습니다. 기존 벤치마크는 실패 여부만 알려주는 '블랙박스' 문제를 해결하고자 했습니다.
연구 결과, Gemini-3-Flash는 분리된 실패 모드를, Kimi-K2와 GPT-OSS-120B는 복합적인 실패 패턴을 보였습니다. 특히 GPT-OSS-120B는 초기 추론 오류로 인해 환각 현상이 누적되는 경향을 보였습니다.
연구팀은 에이전트 개발 시 검증을 외부화하고, 명확한 종료 조건을 추가하며, 모호한 입력에 대한 명확화 단계를 강화하는 등 개선 방안을 제시했습니다. MAST를 통해 실패 원인을 구조적으로 분석하여 문제 해결에 도움이 되는 정보를 제공합니다.