Pulse · AI 뉴스

희소 레이블 환경에서 안전 분류기 최적화 방법

Gnosys · 2026-07-02

Gnosys가 독성 챗(ToxicChat) 벤치마크에서 희소 레이블 환경에서 기존 방법(GEPA)보다 안전 분류기 성능을 향상시켰습니다. 이는 Gnosys가 제한된 데이터로도 모델을 개선하는 능력을 보여줍니다.

Gnosys는 소량의 검증된 데이터와 대량의 레이블이 없는 데이터를 결합하여 품질을 추정하고, 신뢰할 수 없는 경우 더 나은 목표를 설계하여 프롬프트와 분류기를 개선합니다.

짧은 메시지에서는 Gnosys와 GEPA의 성능이 비슷했지만, 폭력 의도, 탈옥 시도, 긴 다단계 메시지와 같이 판단에 더 많은 추론이 필요한 영역에서 Gnosys가 더 나은 성능을 보였습니다. 성인 콘텐츠는 예외였으며, 이 부분에서는 모델 성능이 저하되었습니다.

##안전분류##희소레이블##모델최적화##Gnosys##AI안전

매일 핵심 AI 소식을 한국어로, 빠르게