연구진은 유해한 QA 쌍을 무해한 학습 샘플 내에 삽입하는 '임베디드 공격(Embedded Attack)' 기법을 제안했어요. 기존의 안전장치(guardrail)가 개별 샘플 수준에서 이를 탐지하지 못하는 것을 확인했어요.
임베디드 공격에 대응하기 위해 토큰 수준의 정규화를 활용한 '이중 참조 SFT(Dual-Reference SFT, DR-SFT)'를 제안했어요. DR-SFT는 기존 SFT 방식에 DPO 스타일의 대비적 목표 설계를 적용하여 데이터 필터링 이상의 유해한 튜닝을 완화합니다.