본 연구는 디코더 전용 변환기 모델이 추상적 기호 추론을 수행하는 능력을 조사하며, 특히 문맥 내에서 주어진 명제 논리 추론 문제를 해결하는 것을 분석해요.
기존 연구에 따르면 모델은 학습 중에 관찰되지 않은 변수 이름을 포함하는 문제에 일반화하는 데 실패하며, 이는 새로운 토큰을 복사하거나 생성하는 데 어려움이 있기 때문이라고 밝혀졌어요.
연구진은 이론적, 실증적으로 특정 표현 붕괴 현상이 중요한 역할을 하며, 이는 기존의 휴리스틱 개입 방법인 '적극적 망각'의 효과에 대한 메커니즘적 설명을 제공한다고 설명해요.