SkillOS는 LLM 기반 에이전트의 자기 진화를 위해 경험 기반 강화 학습(RL) 훈련 레시피입니다. 이 방법은 고정된 에이전트 실행기와 훈련 가능한 기술 큐레이터를 결합하여 SkillRepo를 업데이트합니다. SkillOS는 기존 방식보다 효과적이고 효율적인 기술 큐레이션을 가능하게 합니다.
SkillOS는 복합적인 보상을 설계하고 기술 관련 작업 의존성을 기반으로 그룹화된 작업 스트림에서 훈련하여 간접적이고 지연된 피드백으로부터 복잡한 장기 큐레이션 정책을 학습합니다. 다양한 작업에서 기존 방식보다 우수한 성능을 보였습니다.
학습된 큐레이터는 보다 타겟화된 기술 사용을 생성하며, SkillRepo 내의 기술은 시간이 지남에 따라 더 풍부한 구조의 Markdown 파일로 진화하여 고차원 메타 기술을 인코딩합니다.