연구진이 CKA_Delta라는 새로운 진단 도구를 개발하여 다양한 언어 모델 아키텍처에서 개념별 구조적 정렬을 분석했어요. CKA_Delta는 훈련 없이 샘플별 대비 차이에 대한 커널 정렬을 계산하여 개념별 수렴과 일반적인 유사성을 구분해요. Gemma 모델의 경우, CKA_Delta는 아키텍처 이상 감지기로서 AUC 0.79의 성능을 보여줘요.
CKA_Delta는 기존 CKA 방식으로는 구분하기 어려웠던 개념별 수렴을 성공적으로 분리했어요. 이 도구는 70B 파라미터 모델에서 6가지 개념 영역에 걸쳐 재현 가능성을 보여줬어요.
연구진은 CKA_Delta를 아키텍처 이상 감지기로 활용할 수 있다고 제안하며, 훈련 없이도 교차 아키텍처 개념 모니터링을 위한 진단 도구로 제시했어요.