연구진이 LLM 에이전트 성능을 평가하는 자동 평가 프레임워크 OpenSkillEval을 공개했어요. OpenSkillEval은 프레젠테이션 생성, 웹 디자인, 포스터 생성, 데이터 시각화, 보고서 생성 등 5가지 실제 애플리케이션에서 동적으로 작업 인스턴스를 생성해요. 평가 결과, 스킬 가용성이 효과적인 스킬 사용을 보장하지 않으며, 모델과 에이전트 프레임워크에 따라 스킬 증강의 효과가 크게 달라져요.