Pulse · AI 뉴스

Greedy Coordinate Diffusion: 디퓨전 가이드 기반의 효과적이고 의미론적으로 일관된 적대적 공격

arXiv cs.LG · 2026-06-14

연구진은 안전 장벽이 있는 언어 모델을 양성 작업으로 미세 조정하면 유해한 콘텐츠가 없는 훈련 데이터에서도 안전 장벽이 깨지는 현상을 발견했어요.

새로운 프레임워크인 Alignment Instability Condition (AIC)을 통해 미세 조정 시 안전 장벽이 약화되는 조건을 공식화하고, 기울기 흐름 경로에서 안전 장벽이 급격하게 악화되는 현상을 입증했어요.

Fisher Information Matrix가 안전 악화 정도를 나타내는 지표로 활용될 수 있음을 실험적으로 검증했으며, 이는 정적 첫 번째 차수 보호가 기울기 하강 시 실패할 수 있음을 보여줘요.

##AI안전##미세조정##Alignment##GeometricAnalysis
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기