연구진은 확산 모델(DM)의 개념 제거 방법이 완전한 제거가 아닌 억제에 그쳐 공격에 취약하다는 점을 지적했어요.
새로운 프레임워크 ConceptAgent는 서브로게이트 기반 노이즈 상태에서 디노이징 경로를 초기화하여 검은 상자 환경에서 제거된 개념을 각성시킵니다.
ConceptAgent는 모델 파라미터, 기울기, 내부 표현에 대한 접근 없이도 검은 상자 환경에서 제거된 개념을 정확하고 제어 가능하게 각성시킬 수 있음을 실험적으로 입증했어요.
본 연구는 기존 개념 제거 방법의 한계를 보여주고 확산 모델의 의미 제어 역학에 대한 새로운 통찰력을 제공합니다.