연구진은 프롬프트 제어를 활성화 제어로 보고, 프롬프트 제어의 성공적인 행동을 단순하고 해석 가능한 모델로 옮겨 성능 격차를 좁히는 프레임워크를 제안했습니다.
기존 활성화 제어 방식은 프롬프트 제어의 작동 방식을 제대로 반영하지 못하며, 일부 토큰에 강한 개입을 하는 반면 다른 토큰에는 거의 영향을 미치지 않는다는 분석 결과가 나왔습니다.
Prompt Steering Replacement (PSR) 모델은 토큰별 제어 계수를 추정하고 프롬프트 기반 개입을 모방하도록 훈련하여 기존 활성화 제어 방식보다 우수한 성능을 보였습니다.