Pulse · AI 뉴스

신경망 편집을 위한 강화 학습

arXiv cs.CV · 2026-06-12

연구진이 신경망 편집을 강화 학습 문제로 정의하는 프레임워크를 제시했어요. MaskWorld와 ShiftWorld라는 두 환경에서 에이전트가 모델을 수정하며 보상 피드백을 받도록 설계됐어요. 이 프레임워크는 편향 완화 및 기계 학습 삭제와 같은 작업에서 기존 알고리즘을 대체할 수 있음을 보여줬어요.

MaskWorld는 가중치를 곱셈으로 조정하고 ShiftWorld는 가중치에 덧셈을 적용하는 환경이에요. 보상 함수는 유틸리티 보존과 작업별 편집 목표를 결합하여 모델 성능을 유지하면서도 목표 수정 학습을 가능하게 해요.

학습된 정책은 기계 학습 삭제 작업에서 망각 집합 정확도를 거의 0%로 줄이고 90% 이상의 유지 집합 정확도를 유지하며, 편향 완화 설정에서는 일반 분류 유틸리티를 유지하면서 편향 관련 성능을 5% 이상 향상시켰어요.

##강화학습##신경망편집##기계학습##편향완화
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기