연구진은 Activation Steering(AS) 기법으로 생성된 데이터가 안전 검출 분류기 훈련에 효과적인지 조사했어요. AS 데이터는 기존 데이터보다 4개 개념, 2개 모델, 4개 조향 방법에서 3가지 개념에 대해 더 나은 분류기를 만들었어요. 성공, 일관성, 다양성 간의 조화 평균이 안전 검출 성능과 더 일관되게 연관되어 있어 AS 하이퍼파라미터 튜닝 시 중요한 지표로 활용될 수 있어요.