Pulse · AI 뉴스

Stable-GFlowNet: LLM 레드팀 공격 다양성 및 견고성 향상

arXiv cs.LG · 2026-05-01

연구진은 LLM 레드팀 공격의 다양성과 효과를 높이기 위해 Stable-GFlowNet(S-GFlowNet)을 제안했습니다. S-GFlowNet은 파티션 함수 추정 오류를 제거하고, 견고한 마스킹 기법을 사용하여 훈련 불안정성을 줄입니다.

S-GFlowNet은 pairwise 비교를 통해 파티션 함수 추정을 피하고, 유창성 안정화 기법을 사용하여 모델이 엉뚱한 결과에 빠지는 것을 방지합니다.

실험 결과, S-GFlowNet은 다양한 환경에서 압도적인 공격 성능과 다양성을 보여주며, 기존 GFN 방식보다 안정적인 훈련을 가능하게 합니다.

##LLM##레드팀##안전성##S-GFlowNet
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기