Pulse · AI 뉴스

LLM, 학습 데이터 유출 가능성 존재… 일반 사용 환경에서는 드물어

Comma · 2026-06-04

연구팀은 LLM의 학습 데이터 유출 가능성을 평가하는 새로운 프레임워크 'PropMe'를 제안했어요. PropMe는 공격적 시나리오와 일반적인 사용 환경을 구분하여 모델의 기억력(memorization)을 측정해요.

Comma와 DFM Decoder 모델을 Common Pile과 Dynaword 데이터셋으로 평가한 결과, 공격적 프롬프트는 강력한 기억력 신호를 유발하지만, 일반적인 프롬프트에서는 유출 가능성이 낮다는 사실이 확인됐어요.

DFM Decoder는 Comma를 기반으로 지속적으로 사전 훈련되면서 Common Pile 데이터셋에 대한 기억력과 유출 가능성이 감소하는 것을 보여줬어요.

연구팀은 학습 데이터 유출 감사 시 최악의 경우 추출 가능성과 일반적인 유출 가능성을 모두 보고할 것을 권장해요.

##LLM##데이터유출##메모리##PropMe

매일 핵심 AI 소식을 한국어로, 빠르게