가드 모델은 사용자 프롬프트와 LLM 응답에서 유해 콘텐츠를 탐지하는 데 널리 사용돼요. SIREN은 LLM의 내부 표현을 활용하여 기존 가드 모델보다 훨씬 적은 파라미터로 더 뛰어난 성능을 보여줘요. SIREN은 새로운 벤치마크에 대한 일반화 능력이 뛰어나고 실시간 스트리밍 탐지를 가능하게 하며 추론 효율성을 향상시킵니다.