Pulse · AI 뉴스

Transformer 모델의 VC 차원 및 샘플 복잡도에 대한 연구

arXiv cs.LG · 2026-06-09

연구진이 Transformer 모델의 VC 차원을 엄밀하게 분석하여 깊이 L, 파라미터 W를 가진 모델의 상한은 O(L W log(T W))임을 밝혀냈습니다. 또한, 거의 일치하는 하한 O(L W log(T W / L))도 확인했습니다.

체인 오브 소트(Chain-of-Thought) 학습의 샘플 복잡도를 분석한 결과, 교사 강제 학습은 O(L W log((T+T') W))의 샘플 복잡도를 보입니다.

연구 결과, 체인 오브 소트 데이터를 사용하는 모든 학습 규칙은 Ω(L W log((T+T') W / L))의 샘플이 필요함을 보여줍니다.

##Transformer##VC차원##샘플복잡도##ChainofThought

매일 핵심 AI 소식을 한국어로, 빠르게