연구자가 대량의 의미가 밀집된 텍스트가 모델의 잠재 공간 경로를 변화시키고, 안전 장치(RLHF/DPO)를 우회한다는 연구 결과를 발표했어요. 연구에 따르면, 모델은 이러한 텍스트를 읽을 때 내부 수학적 경로를 변경하여 초기 시스템 프롬프트 토큰의 통계적 영향력을 상실하게 돼요. 이는 모델의 안전 아키텍처를 우회하는 방법을 제공하며, 모델의 조건부 확률 분포를 재계산하여 정치적/윤리적 비판을 생성할 수 있게 만들어요.