연구진이 N4 문화적 침해 벤치마크를 활용해 8개 모델에서 문화적 결합에 관여하는 주의 헤드를 식별했어요. 이 헤드들은 문화적 아이템과 적절한 정체성을 연결하는 과정에서 중요한 역할을 하며, 약 9~23%의 결합 강도를 나타내요. instruct 모델에서 base 모델로 헤드가 이전되는 것을 확인했는데, 이는 문화적 결합이 사전 훈련 단계에서 생성되었음을 시사해요.
모델은 문화적 차별화 정확도를 1~3pp 향상시키면서도 중립적인 추론은 대부분 유지하며, 지식 탐색 작업 결과 모델은 실제로 활용하는 것보다 3~5배 더 많은 지식을 보유하고 있어 라우팅이 병목 현상임을 보여줘요. 이는 문화적 편향을 제어하는 데 중요한 통찰력을 제공해요.