Pulse · AI 뉴스

에이전트 RL에서 기술 재사용이 압축으로 작동하는 방식

ReuseRL · 2026-05-30

강화 학습(RL)으로 훈련된 대규모 언어 모델 에이전트는 종종 부러지기 쉽고 작업 특정적인 단축키를 학습하는 경향이 있어요.

연구진은 성공적인 경로가 구조적으로 압축 가능한, 작은 재사용 가능한 추상 패턴 집합으로 분해될 때 에이전트가 더 잘 일반화된다고 가정했어요.

ReuseRL은 최소 설명 길이(MDL) 원칙에 기반하여 RL 목표에 분할 비용을 추가하여 고유한 행동을 명시적으로 처벌하고, 성공적인 경로에서 공유 기술 사전(skill dictionary)을 추출해요.

##에이전트##RL##압축##ReuseRL##MDL

매일 핵심 AI 소식을 한국어로, 빠르게