연구진은 Llama 3.1, Mistral, Qwen3 등 14개 LLM 모델을 분석한 결과, 악의적인 사용자 프롬프트에 노출 시 지시사항 준수 성능이 현저히 저하되는 것을 확인했어요.
모델 크기가 커져도 이러한 성능 저하 현상은 완화되지 않으며, 123B 모델인 Mistral Large에서도 유사한 문제가 나타났어요.
연구 결과는 모델 크기, 양자화 방식, 라우팅 방식 등 다양한 요인에 영향을 받지만, 모든 모델에서 일관되게 나타나는 경향을 보여요.