연구진은 현재 에이전트 기술이 일회성 생성되거나 느슨하게 제어되는 자체 수정 과정을 거치지만, 피드백에 따른 안정적인 성능 개선이 어렵다고 지적했어요.
SkillOpt는 에이전트 기술을 동결된 에이전트의 외부 상태로 취급하여 체계적으로 훈련하는 새로운 방법론으로, 가중치 공간 최적화처럼 재현 가능한 방식으로 기술을 개선해요.
SkillOpt는 6개의 벤치마크, 7개의 대상 모델, 3개의 실행 환경에서 인간, one-shot LLM, Trace2Skill, TextGrad, GEPA, EvoSkill 등 경쟁 기술을 능가하는 성능을 보여줬으며, GPT-5.5에서 평균 정확도를 각각 +23.5, +24.8, +19.1 포인트 향상시켰어요.