연구진은 LLM의 지식 편집 과정에서 발생하는 악성 지식 주입으로 인한 안전성 위험을 평가하는 EditRisk-Bench 벤치마크를 발표했습니다.
EditRisk-Bench는 오정확성, 편향, 안전 위반 등 다양한 악성 시나리오를 통합하여 LLM의 추론 행동과 신뢰성에 미치는 영향을 평가합니다.
실험 결과, 악성 지식 편집은 일반적인 능력을 유지하면서도 잘못된 추론을 유발할 수 있으며, 편집 규모, 지식 특성, 추론 복잡도 등이 주요 위험 요인으로 확인되었습니다.