HaloGuard 팀이 오픈 웨이트 기반의 입력 안전 헌법 분류기인 HaloGuard 1.0을 공개했어요. HaloGuard 1.0은 기존 대비 1/10 크기의 모델로 영어 및 다국어 프롬프트 안전 벤치마크에서 최고 성능을 달성했어요. 46개 정책과 2,940개 하위 범주로 구성된 헌법을 기반으로 합성 데이터를 생성하고, 46개 언어로 다국어 자료를 균형 있게 구현했어요.