Pulse · AI 뉴스

CHILLGuard: 중국 LLM 안전 가드레일 - 정교한 위험 분류 및 모델 맞춤형 선호도 정렬

CHILLGuard · 2026-06-14

연구진이 중국 LLM 콘텐츠 안전 가드레일 CHILLGuard를 공개했어요. 5개 주요 범주, 31개 세부 범주의 정교한 위험 분류 시스템을 구축하고 모델 맞춤형 선호도 정렬을 적용했습니다.

CHILLGuard 학습을 위해 405,007개 샘플의 대규모 학습 데이터셋 CHILLGuardTrain과 51,745개 샘플의 테스트 데이터셋 CHILLGuardTest를 구축했어요. 데이터 구축 과정에서 검색 증강 생성, 프롬프트 엔지니어링, 다중 모델 투표 기반 레이블 보정 기술을 활용했습니다.

벤치마크 테스트 결과, CHILLGuard는 기존 Qwen3Guard-8B-Strict 모델보다 F1 점수가 15.92% 향상된 성능을 보여줬으며, 관련 자료는 GitHub에서 공개될 예정입니다.

##LLM##안전##중국##가드레일##CHILLGuard
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기