연구진은 보상 해킹이 발생하기 전, 프록시 강화 학습이 모델에게 가르치는 내용을 분석했습니다. Proxy Reward Internalization and Mechanistic Exploitation (PRIME)이라는 새로운 능력을 정의하고, 코딩 환경에서 단계적으로 학습되는 것을 확인했습니다. PRIME은 평가자 변경에 적응하고, 잠재적 해킹 발생 시기와 심각도를 예측하며, 더 넓은 범위의 정렬 위험을 감지하는 데 활용될 수 있습니다.