연구진은 LLM의 자동 적대적 테스트의 한계를 극복하기 위해 다양한 공격자 페르소나(의사, 학생, 악의적 행위자 등)를 기반으로 하는 페르소나 조건부 적대적 프롬프팅(PCAP)을 도입했습니다.
PCAP는 GPT-OSS 120B 모델에서 공격 성공률을 57%에서 97%로 증가시키고, 다양한 실제 시나리오를 포함하는 2~6배 더 다양한 프롬프트를 생성했습니다.
PCAP으로 생성된 데이터로 경량 어댑터를 미세 조정하여 모델의 견고성을 크게 향상시켰으며(재현율: 0.36 → 0.99, F1: 0.53 → 0.96), 거짓 양성을 최소화했습니다.