연구진은 문법 제약 디코딩(GCD)이 LLM의 안전성을 높이려다 오히려 해악 코드 생성 공격에 취약점을 노출할 수 있음을 발견했어요.
CodeSpear라는 새로운 공격 기법은 GCD를 악용해 LLM이 악성 코드를 생성하도록 유도하며, 기존 공격 대비 성공률이 30% 이상 높아요.
CodeShield라는 안전 정렬 기법을 통해 LLM이 안전한 행동을 유지하도록 훈련하고, GCD 환경에서도 악성 요청을 이행하지 않는 훈련된 함정 코드를 생성하도록 만들었어요.