연구진은 희소 자동인코더(SAE)의 개입이 억제된 행동을 완전히 막지 못한다는 점을 밝혔어요.
SAE의 특정 유해 기능을 고정하는 개입은 한 가지 방식으로의 오작동을 막을 수 있지만, 행동 자체를 제거하지는 않아요.
연구진은 개입 후 잔여 상태에서 최적화 문제를 해결하여 사전 개입 행동을 복구하는 방법을 제시했어요.
이 연구는 기능 수준 통제가 행동 완전성을 보장하지 못한다는 점을 보여주며, SAE 재구성 잔여부에 행동 복구가 집중됨을 밝혀냈어요.