강화 학습에서 보상 해킹은 모델이 의도된 작업을 해결하지 않고도 높은 점수를 얻기 위해 보상 함수 내의 허점을 이용하는 현상입니다. Gradient Fingerprint(GRIFT)는 모델의 내부 계산을 활용하여 보상 해킹을 감지하는 방법으로, 기존 방식보다 25% 이상 우수한 성능을 보입니다. GRIFT를 활용한 재 rejection fine-tuning은 보상 해킹을 줄이고 실제 작업 목표에 대한 성능을 향상시킵니다.