연구진은 GRPO(Group Relative Policy Optimization)를 활용해 LLM의 안전 장치를 얼마나 쉽게 무너뜨릴 수 있는지 실험했어요. 단 하나의 편향된 예시로 GRPO를 훈련하는 것만으로도 체계적인 편향을 유발하고, 이는 속성·카테고리·벤치마크를 넘어 일반화되는 것으로 나타났어요. 연구 결과, LLM의 정렬 과정은 단 하나의 예시로 인해 무력화될 수 있다는 취약점을 발견했어요.
모델의 초기 편향 출력 가능성에 따라 취약성이 다르다는 점도 확인되었어요. 이는 LLM의 정렬 과정이 생각보다 취약할 수 있음을 시사합니다.
본 논문에는 유해하고 공격적인 발언이 포함되어 있으니 주의해야 합니다.