Pulse · AI 뉴스

Qwen3.5 자체를 RL로 탈주시키고, 실패 사례를 활용해 방어 체계를 개선했습니다

Qwen · 2026-05-15

연구자가 강화 학습(RL)을 활용해 Qwen3.5 모델을 탈주시키는 공격 모델을 만들고, 이를 통해 모델 방어 체계를 개선하는 실험을 진행했습니다.

초기 공격 모델은 동일한 탈주 방식만 반복했지만, 공격 전략을 클러스터링하여 보상하는 방식으로 다양한 탈주 방식을 발견했습니다.

공격 성공 및 안전한 경계 사례를 활용하여 방어 모델을 학습시킨 결과, 방어 성공률은 64%에서 92%로 향상되었고, 무해한 정확도는 92%에서 88%로 감소했습니다.

##RL##Qwen##보안##탈주##강화학습

매일 핵심 AI 소식을 한국어로, 빠르게