연구진은 LLM의 행동 제어 가능성을 예측하는 ASTEER 테스트베드를 개발했어요. ASTEER는 150개 개념에 대한 140만 건의 제어된 생성 데이터를 포함하며, 제어 성공/실패 여부가 표시돼요. 초기 토큰 생성 후 모델 내부 상태를 분석하여 제어 성공 여부를 예측하고, 제어 강도 탐색 시 가이드로 활용하여 효율성을 높였어요.