LLM이 학술 피어 리뷰에 통합되면서, 제출물에 악성 지시사항을 숨겨 결과를 조작하는 적대적 프롬프트 공격의 위험성이 커지고 있어요.
연구진은 공격 프롬프트를 생성하는 Generator 모델과 이를 탐지하는 Defender 모델을 공동으로 최적화하는 새로운 프레임워크인 SafeReview를 제안했어요.
SafeReview는 정보 검색 생성적 적대 신경망에서 영감을 받은 손실 함수를 사용하여 Defender 모델이 지속적으로 발전하는 공격 전략에 대한 강력한 탐지 능력을 갖추도록 훈련했어요.