Pulse · AI 뉴스

문체적 취약점: 최첨단 모델 안전성 평가

arXiv cs.CL · 2026-04-21

Adversarial Humanities Benchmark (AHB)는 모델 안전 기능이 익숙하지 않은 프롬프트 형식을 벗어나도 유지되는지 평가하는 벤치마크입니다.

원래 공격의 성공률은 3.84%였지만, 변환된 방법은 36.8%에서 65.0%까지 높아 전체 성공률이 55.75%에 달했습니다.

이러한 문체적 취약점은 현재 안전 기술의 일반화 능력이 부족하다는 점을 시사하며, '해악 금지'에 대한 깊이 있는 이해가 최첨단 모델 안전성의 핵심 과제임을 보여줍니다.

##모델안전##취약점##벤치마크

매일 핵심 AI 소식을 한국어로, 빠르게