대규모 언어 모델은 주의 집중 경로의 예측 가능한 실패로 인해 환각 현상을 일으키는데, 이는 특정 위치에 과도하게 집중하거나 관련성이 희석될 정도로 너무 넓게 분산되는 방식으로 나타납니다.
연구진은 주의 집중 연산자의 대칭 성분을 분석하는 스펙트럼 방법의 한계를 증명했으며, 모든 대칭 변환 불변 스펙트럼 진단은 정보 흐름 방향을 감지할 수 없다는 것을 밝혀냈습니다.
새로운 두 축 진단법(용량 φ, 방향 G)을 통해 병목 현상과 확산 지배적인 벤치마크는 반대 극성을 나타내는 예측을 제시하며, 길이 제어 평가에서 수송 특징은 최대 80억 파라미터 모델까지 해석 가능한 신호를 유지합니다.