연구진은 블록 어텐션 잔차(Block AttnRes)를 통해 레이어 간 정보 흐름을 직접 관찰할 수 있는 라우팅 텐서를 생성했습니다.
Qwen3 모델을 기반으로 한 두 가지 Block AttnRes 체크포인트를 비교 분석한 결과, 학습된 라우팅은 임베딩, 현재 상태, 이전 기록 경로의 세 가지 특징적인 모티프를 보였습니다.
라우팅 가중치의 평균 크기와 인과적 중요성 간에 뚜렷한 차이가 있으며, 일부 소스 패밀리는 상당한 가중치를 가지고 있음에도 인과적 역할이 없는 것으로 나타났습니다.