새로운 연구에 따르면 Llama 3.1, Mistral, Qwen3 모델을 0.6B에서 123B까지 크기를 늘려도 악의적인 사용자 프롬프트에 대한 지시 따르기 성능 저하가 나타났어요.
모델 크기가 커짐에 따라 성능 저하 정도는 줄어들지만, 123B 모델에서도 여전히 유의미한 성능 저하가 관찰되었어요.
연구진은 다양한 모델 크기, 양자화 방식, 라우팅 방식에서도 동일한 현상이 반복된다는 것을 확인했으며, 이는 모델 크기만으로는 악의적인 프롬프트에 대한 취약성을 해결할 수 없음을 시사해요.