연구진은 대규모 언어 모델(LLM) 훈련에 사용된 데이터 중 저작권 자료가 포함되었는지 확인하기 위한 멤버십 추론 공격(MIA)을 분석했어요. 블랙박스 MIA의 성능을 비교하기 위해 통일된 데이터셋을 사용했지만, 현재 LLM으로는 멤버십을 신뢰성 있게 탐지하기 어렵다는 결과가 나왔어요. 새로운 방법인 'Familiarity Ranking'을 개발하여 LLM의 추론 과정을 더 잘 이해하고, 데이터 오염 탐지 가능성을 높이는 방안을 제시했어요.