Pulse · AI 뉴스

ERTS: 의미 변조를 통한 윤리 AI의 적대적 강건성 테스트

Llama · 2026-06-11

연구진은 의료, 자율주행, 채용 등 고위험 윤리적 상황에서 AI 시스템의 적대적 조작에 대한 강건성을 평가하는 ERTS(Ethical Robustness Testing System) 프레임워크를 소개했어요.

ERTS는 윤리적 딜레마를 22차원의 윤리적 결과 공간(ECS)에 인코딩하고, 17가지 의미 변조 함수를 적용하여 모델의 윤리적 안정성 지수(EII)를 측정해요.

4개의 기준 모델과 2개의 LLM(Gemini 2.0 Flash, Llama 3.2)을 평가한 결과, 33%만이 평가를 통과했으며, 특히 Llama-3.2 모델은 공정성 손상에 취약했어요.

##AI윤리##강건성##적대적공격##Gemini##Llama

매일 핵심 AI 소식을 한국어로, 빠르게