Pulse · AI 뉴스

LLM의 탈옥 공격: 주의 깊게 살펴봐야 할 ‘안전 기능’의 잔존

arXiv cs.AI · 2026-06-26

연구팀이 LLM의 탈옥 공격이 안전 기능 전체를 제거하는 것이 아니라 특정 주의 집중(attention head)을 선택적으로 억제한다는 증거를 제시했어요.

탈옥 공격에 취약한 초기 레이어의 주의 집중(ACH)과 안전 기능에 기여하는 중간 레이어의 주의 집중(SAH)으로 기능적으로 구분되는 두 가지 유형의 주의 집중이 관찰됐어요.

연구팀은 ACH 억제를 통해 정상적으로 거부되는 입력에 대한 탈옥 공격과 유사한 행동을 유도할 수 있으며, SAH를 제거하면 중간 레이어의 안전 기능 활성화가 크게 약화된다는 사실을 밝혀냈어요.

##LLM##탈옥##안전##attentionhead

매일 핵심 AI 소식을 한국어로, 빠르게