연구진은 크로스-레이어 트랜스코더(CLT)의 불필요한 기능 해석 및 평가 비용을 줄이기 위해 PIE라는 새로운 프레임워크를 개발했어요.
PIE는 Pruning, Interpretation, Evaluation 단계를 연결하여 행동 충실도 측정 및 해석 가능성을 체계적으로 평가하며, Feature Attribution Patching(FAP)과 FAP-Synergy 기법을 활용해요.
IOI 및 Doc-String 데이터셋에서 FAP 패밀리는 다양한 예산 규모에서 최고의 성능을 보였으며, Llama-3.2-1B 및 Gemma-2-2B 모델에서 100개의 기능으로 가지는 KL 충실도가 약 40배 더 많은 기능을 필요로 하는 경우와 동일했어요.