Pulse · AI 뉴스

LLM 후처리 과정의 순차적 데이터 오염 공격 분석

arXiv cs.LG · 2026-06-03

연구진은 LLM 후처리 과정에서 여러 공격자가 SFT와 선호도 데이터셋을 개별적으로 오염시키는 '순차적 데이터 오염' 공격 모델을 제안했어요. 단일 공격자 분석으로는 미미한 위협으로 보이지만, 여러 공격자가 협력하면 숨겨진 취약점이 드러난다는 사실이 확인됐어요. SFT-DPO 파이프라인에서는 공격자의 자원 분산이 집중보다 효과적이고, SFT-PPO 파이프라인에서는 상호 보완적인 효과를 보여요.

SFT-DPO 파이프라인에서 공격자는 자원을 분산시켜야 더 큰 효과를 낼 수 있으며, SFT-PPO 파이프라인에서는 SFT와 보상 모델 오염이 개별적으로는 실패하지만 함께 시너지 효과를 낸다는 점이 밝혀졌어요.

연구 결과는 GitHub에서 코드 형태로 공개됐으며, LLM 후처리 과정의 보안 취약점 분석에 중요한 시사점을 제공해요.

##LLM##데이터오염##보안##후처리##PPO
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기