UniSteer는 텍스트 기반으로 LLM의 내부 표현을 제어하는 새로운 기술로, 다양한 행동 제어 및 개념 조작을 가능하게 합니다. 기존 방식과 달리, UniSteer는 액티베이션 공간에서 조건부 속도장을 학습하여 특정 행동에 대한 개별적인 개입 없이도 LLM을 제어합니다. 실험 결과, UniSteer는 행동 제어, 진실성 향상, 미세한 개념 제어, 복합 제약 조건 준수, 액티베이션 공간 분류 등 다양한 작업에서 효과적인 성능을 보였습니다.