연구진은 Transformer 모델이 학습된 작업 인지 및 새로운 작업 적응이라는 두 가지 추론 방식으로 작동한다고 밝혔습니다. 내부 표현에서 작업별 방향인 작업 벡터가 모델 행동을 조종하며, 이는 훈련 분포에 의해 형성되고 OOD(Out-of-Distribution) 일반화 능력을 가능하게 합니다. 연구는 통제된 합성 환경에서 작은 Transformer 모델을 훈련시켜 작업 벡터 기하학, 훈련 분포, 일반화 행동 간의 연관성을 분석했습니다.