UC Santa Barbara, MIT CSAIL, MIT-IBM Watson AI Lab 연구팀이 AI 에이전트의 스킬 활용 능력을 현실적으로 평가하는 연구를 진행했습니다. 연구팀은 34,198개의 스킬을 수집하여 테스트한 결과, 기존 벤치마크 성능의 절반 수준에도 미치지 못하는 것으로 나타났습니다.