Pulse · AI 뉴스

오프라인 RLHF의 효율적인 선호도 중독 공격

arXiv cs.LG · 2026-05-04

본 연구는 Direct Preference Optimization(DPO)와 같은 오프라인 강화 학습에서 인간 피드백(RLHF) 파이프라인이 선호도 중독 공격에 취약함을 분석합니다.

단일 선호도 레이블을 뒤집는 것만으로도 DPO 그래디언트에 파라미터에 독립적인 변화가 발생한다는 점을 밝혀냈습니다.

Binary-Aware Lattice Attack (BAL-A)과 Binary Matching Pursuit Attack (BMP-A)이라는 두 가지 공격 방법을 개발하여 최소한의 레이블 뒤집기 횟수를 찾아냅니다.

##RLHF##보안##공격##오프라인강화학습

매일 핵심 AI 소식을 한국어로, 빠르게