연구진은 지도 학습(SFT)을 통해 대규모 언어 모델에 유도되는 행동을 특정 신경망 회로에 압축하고, 이를 제어하며 되돌릴 수 있는 방법을 제시했습니다.
Loss-Constrained Dual Descent (LCDD)를 통해 행동을 담는 '캐리어'를 생성하고, SFT-Eraser라는 소프트 프롬프트를 활용하여 SFT로 유도된 행동을 되돌릴 수 있습니다.
실험 결과, LCDD는 목표 행동을 유지하면서도 강력한 역전 기능을 제공하며, 구조가 역전의 핵심 요소임을 확인했습니다.