연구진은 LLM의 내부 표현에 개입하여 원하는 행동을 유도하는 활성화 조향 방식이 추론 및 검색 성능을 저하시킨다는 문제점을 지적했어요.
SKOP(Steering via Key-Orthogonal Projections)는 핵심 토큰에 대한 주의 패턴을 유지하면서 덜 중요한 토큰 간의 재분배를 허용하여 해로운 주의 리라우팅을 방지하는 조향 방법이에요.
SKOP은 여러 조향 벤치마크에서 조향-효용 균형을 최적화하여 기존 조향 방식 대비 효용 저하를 5~7배 줄이고 95% 이상의 조향 효능을 유지했어요.