연구진은 Needleman--Wunsch (NW) 행렬 생성 작업에서 작은 Transformer 모델이 중간 크기의 데이터셋으로 가장 빠르게 높은 검증 정확도를 달성하는 현상을 발견했습니다. 이 지점을 지나면 일반화는 여전히 가능하지만 더 많은 기울기 업데이트가 필요합니다. 규칙 학습과 정확한 맞춤이 분리되는 구조화된 출력 작업을 식별했습니다.
데이터셋 크기가 충분히 커져서 기본 규칙을 식별할 수 있게 되면 추가 데이터는 검증 수렴을 가속화한다는 기존의 직관이 실패할 수 있다는 것을 보여줍니다. 부분적인 검증 역량이 처음 나타나는 단계에서는 더 큰 데이터셋이 높은 훈련 정확도에 도달하는 데 더 적은 업데이트가 필요할 수 있습니다.
이러한 결과는 일반화의 시작을 위한 중요한 데이터 크기를 업데이트 기반 수렴을 최적화하는 데이터 크기와 분리합니다.