자가 학습 강화 학습은 인간 레이블 없이 자체 생성된 작업으로 언어 모델을 훈련하여 제안자와 해결사가 함께 진화합니다.
연구진은 자가 학습 안정성이 데이터 레벨 게이트와 정책을 업데이트하는 보상 신호라는 두 가지 별개의 레버에 의해 결정된다고 주장합니다.
실험 결과, 엄격한 게이트는 테스트한 모든 보상 변형에서 안정성을 유지하는 데 충분하지만 게이트가 제거되면 보상 변형으로는 충분하지 않습니다.
데이터 레벨 게이팅은 보상 교정보다 자가 학습 안정성에 대한 제약 조건입니다.