연구진은 외부 스킬 생성기나 스킬 저장소 없이 LLM 에이전트가 스킬을 학습하고 활용할 수 있도록 하는 SIRI(Self-Internalizing Reinforcement learning with Intrinsic skills) 프레임워크를 제안했어요.
SIRI는 GiGPO를 활용해 기본 상호작용 능력을 습득하고, 자체적인 스킬 마이닝과 검증을 거쳐 유용한 스킬 가이드 액션 토큰을 기존 정책에 통합하는 방식으로 작동해요.
ALFWorld와 WebShop 환경에서 SIRI는 기존 GiGPO 대비 성능을 향상시켰으며, 자체 스킬 마이닝 전략은 폐쇄형 대규모 모델과 유사한 성능을 달성했어요.