Pulse · AI 뉴스

악성 지식 편집 하에 LLM의 안전성 위험 평가: EditRisk-Bench 벤치마크

EditRisk-Bench · 2026-05-11

연구진은 LLM의 지식 편집 과정에서 발생하는 악성 지식 주입으로 인한 안전성 위험을 평가하는 EditRisk-Bench 벤치마크를 발표했습니다.

EditRisk-Bench는 오정확성, 편향, 안전 위반 등 다양한 악성 시나리오를 통합하여 LLM의 추론 행동과 신뢰성에 미치는 영향을 평가합니다.

실험 결과, 악성 지식 편집은 일반적인 능력을 유지하면서도 잘못된 추론을 유발할 수 있으며, 편집 규모, 지식 특성, 추론 복잡도 등이 주요 위험 요인으로 확인되었습니다.

##LLM##안전성##지식편집##벤치마크##EditRisk-Bench

매일 핵심 AI 소식을 한국어로, 빠르게