연구진은 기존의 LLM 독성 제거 방법이 모델 훈련 후 단계나 추론 시간에 집중하는 것을 넘어, 데이터 자체를 정화하는 새로운 방법론을 제시했어요.
HSPD(Hierarchical Semantic-Preserving Detoxification) 파이프라인은 SoCD(Soft Contrastive Decoding)를 활용하여 LLM이 원본 데이터의 유해한 부분을 찾아 의미를 보존하며 수정하도록 유도해요.
GPT2-XL 모델에서 HSPD는 독성 확률(TP)을 0.42에서 0.18로, 최대 예상 독성(EMT)을 0.43에서 0.20으로 낮추며 최첨단 성능을 달성했어요.