연구진은 트랜스포머 모델이 사실을 어떻게 기억하는지 분석했습니다. 기존 방식은 임베딩 쌍을 연관 기억으로 저장하지만, 새로운 연구는 임베딩이 관계 구조를 직접적으로 인코딩하는 '기하학적' 방식을 제시합니다.
단층 트랜스포머가 랜덤한 관계를 기억하는 실험에서, 임베딩 차원이 로그 스케일로 충분하며, MLP는 관계에 따라 속성을 선택하는 역할을 합니다.
연구는 새로운 관계에 대한 제로샷 전이 성능을 보여주며, 모델이 특정 사실을 기억하는 것이 아니라 일반적인 선택 메커니즘을 학습했음을 시사합니다.