연구진은 LLM 에이전트의 스킬 생성 능력을 평가하는 새로운 벤치마크 'SkillGenBench'를 공개했어요. 기존 벤치마크는 주어진 스킬 활용이나 문제 해결 능력을 평가했지만, SkillGenBench는 스킬 생성 자체에 초점을 맞췄습니다.
SkillGenBench는 주어진 데이터에서 표준화된 스킬을 생성하고 실행하며, 스킬 생성 방식에 따라 작업 조건 기반 생성과 작업 불문 생성으로 나뉘고, 데이터 소스에 따라 저장소 기반과 문서 기반으로 구분됩니다.
실험 결과, 스킬 생성 방법과 모델에 따라 성능 차이가 크고, 재사용 가능한 스킬 추출의 어려움과 소프트웨어 저장소와 문서에서 스킬을 생성할 때의 실패 모드 차이가 확인됐습니다.