연구진이 Transformer 모델의 VC 차원을 엄밀하게 분석하여 깊이 L, 파라미터 W를 가진 모델의 상한은 O(L W log(T W))임을 밝혀냈습니다. 또한, 거의 일치하는 하한 O(L W log(T W / L))도 확인했습니다.
체인 오브 소트(Chain-of-Thought) 학습의 샘플 복잡도를 분석한 결과, 교사 강제 학습은 O(L W log((T+T') W))의 샘플 복잡도를 보입니다.
연구 결과, 체인 오브 소트 데이터를 사용하는 모든 학습 규칙은 Ω(L W log((T+T') W / L))의 샘플이 필요함을 보여줍니다.