본 연구는 Direct Preference Optimization(DPO)와 같은 오프라인 강화 학습에서 인간 피드백(RLHF) 파이프라인이 선호도 중독 공격에 취약함을 분석합니다.
단일 선호도 레이블을 뒤집는 것만으로도 DPO 그래디언트에 파라미터에 독립적인 변화가 발생한다는 점을 밝혀냈습니다.
Binary-Aware Lattice Attack (BAL-A)과 Binary Matching Pursuit Attack (BMP-A)이라는 두 가지 공격 방법을 개발하여 최소한의 레이블 뒤집기 횟수를 찾아냅니다.