Pulse · AI 뉴스

LLM 안전 방어: Safety Bottleneck Regularization (SBR) 제시

Safety Bottleneck Regularization · 2026-05-07

LLM의 안전 정렬은 유해한 미세 조정(HFT)에 취약하며, 기존 방어는 지속적인 HFT에 의해 무력화될 수 있습니다.

연구진은 HFT 공격이 고차원 파라미터 공간의 과잉 적합성을 악용한 결과임을 밝혀냈습니다.

Safety Bottleneck Regularization (SBR)은 unembedding 레이어를 활용하여 유해한 쿼리의 숨겨진 상태를 안전 정렬 모델의 상태에 고정하여 안전성을 강화합니다.

##LLM##안전##미세조정##SBR##보안

매일 핵심 AI 소식을 한국어로, 빠르게