Pulse · AI 뉴스

LLM 독성 제거: 데이터 자체를 정화하다

Hugging Face · 2026-04-21

연구진은 기존의 LLM 독성 제거 방법이 모델 훈련 후 단계나 추론 시간에 집중하는 것을 넘어, 데이터 자체를 정화하는 새로운 방법론을 제시했어요.

HSPD(Hierarchical Semantic-Preserving Detoxification) 파이프라인은 SoCD(Soft Contrastive Decoding)를 활용하여 LLM이 원본 데이터의 유해한 부분을 찾아 의미를 보존하며 수정하도록 유도해요.

GPT2-XL 모델에서 HSPD는 독성 확률(TP)을 0.42에서 0.18로, 최대 예상 독성(EMT)을 0.43에서 0.20으로 낮추며 최첨단 성능을 달성했어요.

##데이터정화##LLM##독성제거
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기