연구진은 LLM 에이전트 스킬 평가의 한계를 지적하며, 스킬이 에이전트 행동에 미치는 영향을 측정하는 새로운 프레임워크 'Counterfactual Trace Auditing (CTA)'를 제안했습니다.
CTA는 스킬 유무에 따른 에이전트 추적을 비교 분석하여 'Skill Influence Pattern (SIP)'이라는 구조화된 주석을 생성, 스킬의 행동적 영향을 상세히 파악합니다.
SWE-Skills-Bench를 활용한 분석 결과, 스킬은 통과율 변화에 반영되지 않더라도 에이전트 행동을 크게 변화시키며, 템플릿 복사, 불필요한 계획 등 다양한 부작용을 드러냈습니다.