연구진은 강화 학습에서 손실 함수 변화에 따른 후방 기대값 변화를 분석하는 취약성 기법을 활용했어요. 간단한 그리드월드 모델을 통해 강화 학습 모델의 파라미터 공간 내 내부 특징을 파악할 수 있음을 확인했어요. 활성화 조향을 통해 결과를 검증하고 RLHF 훈련 후 적용 가능성을 논의했어요.