연구진은 LLM의 행동을 제어하는 경량화된 방법인 활성화 제어(activation steering)의 성공 여부를 예측하는 방법을 연구했어요. ASTEER 테스트베드를 구축하여 150개 개념에 대한 140만 건의 제어된 생성 데이터를 수집하고, 제어 성공/실패 여부를 라벨링했어요. 초기 토큰 생성 후 모델의 내부 상태를 분석하여 제어 가능성을 예측하고, 제어 성공률을 높이는 데 활용하여 최적의 성능을 달성했어요.