연구진이 LLM 에이전트 성능 향상을 위한 스킬(구조화된 워크플로우) 평가 프레임워크 OpenSkillEval을 공개했어요.
OpenSkillEval은 정적 벤치마크 대신 프레젠테이션 생성, 웹 디자인, 포스터 생성, 데이터 시각화, 보고서 생성 등 5가지 실제 애플리케이션에서 동적으로 작업 인스턴스를 생성해요.
600개 이상의 작업 인스턴스와 30개의 오픈소스 스킬을 활용해 최신 모델과 에이전트 프레임워크를 평가한 결과, 스킬 사용 가능성이 효과적인 사용을 보장하지 않으며, 모델과 에이전트 프레임워크에 따라 스킬 증강의 효과가 크게 달라지는 것을 확인했어요.