연구진은 트랜스포머의 메커니즘 해석을 위해 어텐션과 MLP의 공유 키-값 템플릿 구조를 활용한 Unpack 방법을 개발했어요.
Unpack은 역방향 재귀를 통해 서브 레이어 간의 상호 작용 강도를 분석하고, K/Q/V 구성 레이블을 가진 엔드투엔드 경로를 식별하며, 단일 순방향 패스에서 토큰별 속성을 제공해요.
Pythia 모델 패밀리에서 토큰 속성 억제 패턴이 일관되게 회수되며, 메커니즘 구조를 추적하는 방법의 유효성을 입증했어요. 코드는 GitHub에서 확인할 수 있어요.