Pulse · AI 뉴스

언어 모델 적대적 훈련: GRPO 기반 적응형 레드 팀

AdvGRPO · 2026-06-09

연구진이 GRPO 기반의 적응형 레드 팀 프레임워크 AdvGRPO를 개발했어요. 이 프레임워크는 공격자와 방어자 모델을 공동으로 최적화하여 효과적인 공격과 안전한 방어를 가능하게 해요.

AdvGRPO는 밀집 다중 채널 보상과 분리된 장점 정규화를 사용하여 GRPO의 불안정성 문제를 해결했어요. 단일 턴에서 폐쇄 루프 다중 턴 공격으로 이어지는 교육 과정을 거쳐 공동 훈련을 시작합니다.

공동 훈련된 방어 모델은 안전성 벤치마크에서 기존 모델보다 뛰어난 성능을 보여주며, 공격의 효과와 전달성도 입증했어요.

##레드팀##GRPO##공동훈련

매일 핵심 AI 소식을 한국어로, 빠르게