연구진은 실제 작업에서 에이전트 기술 생성을 위한 지속적 학습 방법을 평가하는 첫 번째 벤치마크인 SkillLearnBench를 소개했어요. SkillLearnBench는 20개의 검증된 기술 의존적 작업을 포함하며, 기술 품질, 실행 경로, 작업 결과의 세 가지 수준에서 평가돼요. 분석 결과, 지속적 학습 방법은 기존 방식보다 성능이 향상되지만, 더 강력한 LLM을 사용해도 일관된 성능 향상은 어렵다는 점이 확인됐어요.