연구진이 신경망 편집을 강화 학습 문제로 정의하는 프레임워크를 제시했어요. MaskWorld와 ShiftWorld라는 두 환경에서 에이전트가 모델을 수정하며 보상 피드백을 받도록 설계됐어요. 이 프레임워크는 편향 완화 및 기계 학습 삭제와 같은 작업에서 기존 알고리즘을 대체할 수 있음을 보여줬어요.
MaskWorld는 가중치를 곱셈으로 조정하고 ShiftWorld는 가중치에 덧셈을 적용하는 환경이에요. 보상 함수는 유틸리티 보존과 작업별 편집 목표를 결합하여 모델 성능을 유지하면서도 목표 수정 학습을 가능하게 해요.
학습된 정책은 기계 학습 삭제 작업에서 망각 집합 정확도를 거의 0%로 줄이고 90% 이상의 유지 집합 정확도를 유지하며, 편향 완화 설정에서는 일반 분류 유틸리티를 유지하면서 편향 관련 성능을 5% 이상 향상시켰어요.