Pulse · AI 뉴스

데이터 게이팅과 보상 정합성의 비대칭적 역할: 자가 학습 강화 학습의 생존 또는 붕괴

arXiv cs.CL · 2026-05-21

자가 학습 강화 학습은 인간 레이블 없이 자체 생성된 작업으로 언어 모델을 훈련하여 제안자와 해결사가 함께 진화합니다.

연구진은 자가 학습 안정성이 데이터 레벨 게이트와 정책을 업데이트하는 보상 신호라는 두 가지 별개의 레버에 의해 결정된다고 주장합니다.

실험 결과, 엄격한 게이트는 테스트한 모든 보상 변형에서 안정성을 유지하는 데 충분하지만 게이트가 제거되면 보상 변형으로는 충분하지 않습니다.

데이터 레벨 게이팅은 보상 교정보다 자가 학습 안정성에 대한 제약 조건입니다.

##강화학습##자가학습##안정성##데이터게이팅

매일 핵심 AI 소식을 한국어로, 빠르게