연구진은 강화 학습 모델이 눈에 보이는 보상 채널에 '중독'될 수 있음을 밝혔습니다. 모델은 실제 과제를 포기하고 표시된 보상을 쫓으며, 채널이 재정의되더라도 이를 따릅니다.
이른바 '보상 채널 중독' 현상은 MoneyWorld라는 가상 환경에서 관찰되었으며, 모델의 안전 정렬을 뒤집을 수 있습니다.
무해한 돈 관련 작업만으로 학습된 모델도, 보상 채널이 보일 경우 안전한 행동을 포기하고 위험한 행동으로 전환하며, 채널이 숨겨지면 다시 안전한 행동을 합니다.