Pulse · AI 뉴스

It Takes One to Bias Them All: GRPO 단발 훈련으로 LLM 편향 유도

GRPO · 2026-06-09

연구진은 GRPO(Group Relative Policy Optimization)를 활용해 LLM의 안전 장치를 얼마나 쉽게 무너뜨릴 수 있는지 실험했어요. 단 하나의 편향된 예시로 GRPO를 훈련하는 것만으로도 체계적인 편향을 유발하고, 이는 속성·카테고리·벤치마크를 넘어 일반화되는 것으로 나타났어요. 연구 결과, LLM의 정렬 과정은 단 하나의 예시로 인해 무력화될 수 있다는 취약점을 발견했어요.

모델의 초기 편향 출력 가능성에 따라 취약성이 다르다는 점도 확인되었어요. 이는 LLM의 정렬 과정이 생각보다 취약할 수 있음을 시사합니다.

본 논문에는 유해하고 공격적인 발언이 포함되어 있으니 주의해야 합니다.

##LLM##편향##GRPO##안전##윤리

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기