GPT-OSS Safeguard는 정책 기반 콘텐츠 라벨링을 위해 개발된 오픈 웨이트 추론 모델입니다. gpt-oss 모델을 기반으로 파인튜닝되었으며, 정책에 따라 콘텐츠를 라벨링하는 기능을 수행합니다. 모델의 기능과 안전성 평가 결과를 담은 보고서가 공개되었으며, gpt-oss 모델을 기준으로 안전성 평가가 진행되었습니다.