연구진은 더 큰 모델이 작은 모델이 학습하지 못하는 작업을 학습하는 현상에 대한 새로운 설명을 제시했어요. 데이터 기반 자원 경쟁(뉴런)이 작은 모델의 성능을 제한하며, 이는 희귀하고 복잡한 작업에 대한 학습을 방해해요. 더 큰 모델은 간섭을 줄여 희귀 작업의 특징을 유지하고, OLMo 모델 실험 결과도 이를 뒷받침하며, 더 큰 모델이 더 많은 작업 특징을 표현하고 작업 간 간섭이 적음을 확인했어요.