연구진이 중국 LLM 콘텐츠 안전 가드레일 CHILLGuard를 공개했어요. 5개 주요 범주, 31개 세부 범주의 정교한 위험 분류 시스템을 구축하고 모델 맞춤형 선호도 정렬을 적용했습니다.
CHILLGuard 학습을 위해 405,007개 샘플의 대규모 학습 데이터셋 CHILLGuardTrain과 51,745개 샘플의 테스트 데이터셋 CHILLGuardTest를 구축했어요. 데이터 구축 과정에서 검색 증강 생성, 프롬프트 엔지니어링, 다중 모델 투표 기반 레이블 보정 기술을 활용했습니다.
벤치마크 테스트 결과, CHILLGuard는 기존 Qwen3Guard-8B-Strict 모델보다 F1 점수가 15.92% 향상된 성능을 보여줬으며, 관련 자료는 GitHub에서 공개될 예정입니다.