연구진이 GRPO 기반의 적응형 레드 팀 프레임워크 AdvGRPO를 개발했어요. 이 프레임워크는 공격자와 방어자 모델을 공동으로 최적화하여 효과적인 공격과 안전한 방어를 가능하게 해요.
AdvGRPO는 밀집 다중 채널 보상과 분리된 장점 정규화를 사용하여 GRPO의 불안정성 문제를 해결했어요. 단일 턴에서 폐쇄 루프 다중 턴 공격으로 이어지는 교육 과정을 거쳐 공동 훈련을 시작합니다.
공동 훈련된 방어 모델은 안전성 벤치마크에서 기존 모델보다 뛰어난 성능을 보여주며, 공격의 효과와 전달성도 입증했어요.