연구진은 문법 제약 디코딩(GCD)이 LLM의 악성코드 생성 공격에 악용될 수 있다는 점을 발견했어요.
CodeSpear라는 새로운 기법을 통해 GCD를 활용, LLM이 악성 코드를 생성하도록 유도할 수 있으며, 기존 기법 대비 공격 성공률이 30% 이상 향상돼요.
CodeShield라는 안전 정렬 방식을 제안하여, 공격자가 제어하는 문법 제약 조건 하에서도 안전한 행동을 유지하도록 설계됐어요.
CodeShield는 LLM이 꿀 트랩 코드를 생성하도록 학습시켜 안전성을 확보하면서도 자연어 거부 능력도 유지하며, 10개 LLM에서 효과를 입증했어요.