연구진이 Inoculation Adapter (IA)라는 새로운 기법을 개발했어요. IA는 LoRA를 활용해 원치 않는 특성을 강화한 후, 다른 작업 어댑터 학습 시 동결하여 사용해요. 실험 결과 IA는 기존 Inoculation Prompting보다 원치 않는 특성을 억제하는 데 효과적이며, 능력 저하와 예상치 못한 부작용을 줄여요.
IA는 6개 모델 패밀리에서 Emergent Misalignment를 포함한 다양한 원치 않는 특성 억제에 효과적인 것으로 나타났어요. 기존 기법과 달리, 프롬프트로 신뢰성 있게 유도하기 어려운 특성도 억제할 수 있고, 더 적은 부작용을 발생시켰어요.
원치 않는 특성 억제에는 효과적이지만, IA는 원하는 특성을 유지하는 데 있어서 기존 Inoculation Prompting과 마찬가지로 어려움을 겪고 있어요.