Pulse · AI 뉴스

배포된 안전 분류기의 온라인 시프트 감지 및 적응적 컨포멀 예측

DeBERTa · 2026-06-10

연구진은 배포된 안전 분류기에서 데이터 분포 변화를 감지하는 온라인 모니터링 시스템을 개발했어요. 순차적 통계 기반으로 분류기가 분포 범위를 벗어났는지 감지하고, 오류율 0.1을 유지하기 위해 컨포멀 추상화 계층을 조정해요. 실험 결과, 86.6%의 정확도로 변화를 감지하고 평균 지연 시간은 39.5단계였어요.

합성 데이터, 실제 jailbreak, GCG 적대적 공격 등 다양한 환경에서 변화 감지 성능이 검증되었으며, 컨포멀 예측을 통해 최대 39pp의 커버리지를 회복했어요. 하지만 일부 분류기에서는 예측 성능이 저하되는 현상도 관찰되었어요.

주성분 분석(PCA)을 통해 차원을 축소하여 일부 분류기의 예측 성능을 개선했으며, 분류기, 변화 유형, 상호작용이 감지 지연 시간의 분산을 유발한다는 사실을 밝혀냈어요.

##안전분류기##데이터시프트##컨포멀예측##온라인모니터링
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기