강화 학습(RL)으로 훈련된 대규모 언어 모델 에이전트는 종종 부러지기 쉽고 작업 특정적인 단축키를 학습하는 경향이 있어요.
연구진은 성공적인 경로가 구조적으로 압축 가능한, 작은 재사용 가능한 추상 패턴 집합으로 분해될 때 에이전트가 더 잘 일반화된다고 가정했어요.
ReuseRL은 최소 설명 길이(MDL) 원칙에 기반하여 RL 목표에 분할 비용을 추가하여 고유한 행동을 명시적으로 처벌하고, 성공적인 경로에서 공유 기술 사전(skill dictionary)을 추출해요.