연구에 따르면 시적인 표현으로 만들어진 악성 프롬프트는 LLM의 안전 장치를 우회할 수 있으며, 이는 모델의 안전성에 대한 우려를 낳고 있습니다.
연구진은 시적인 장치가 모델의 안전 장치를 우회하는 이유를 알아보기 위해 주의 집중 패턴을 분석했으며, 모델이 시적인 형식을 인식하지만 안전 여부를 예측하는 데 어려움을 겪는다는 사실을 확인했습니다.
결과적으로, 연구는 스타일적 불규칙성이 모델의 처리 방식을 변경하여 유해 콘텐츠 감지기를 회피하며, 스타일 변화를 고려한 안전 장치가 필요함을 시사합니다.