연구진은 LLM의 표현 개입 방식의 한계를 지적하며, 샘플별로 적합한 개입 방향과 강도가 다르다는 점을 발견했어요. 이를 해결하기 위해 에너지 교정 기반 멀티 어댑터 표현 개입 방식 (MARI)을 제안했어요.
MARI는 전문적인 어댑터들을 활용해 샘플별 비선형 교정 패턴을 학습하고, 입력에 따라 적절한 개입 방향과 강도를 결정해요. 또한, 내부 전파 역학을 활용해 개입 가능한 입력을 구별하는 게이팅 모듈을 설계했어요.
TruthfulQA, BBQ, 안전 벤치마크에서 기존 방식보다 성능을 향상시키고, MMLU, ARC와 같은 일반적인 작업 능력도 유지하거나 개선하는 결과를 얻었어요. 연구 코드는 GitHub에서 확인할 수 있어요.