Pulse · AI 뉴스

추론에 대한 측정 이론적 분석: 구조적 일반화 및 근사 한계

arXiv cs.AI · 2026-05-20

연구진은 LLM 추론의 OOD 일반화 메커니즘을 최적 수송을 통해 형식화했어요. 아키텍처 리프시츠 연속성과 함수 근사 한계를 통해 OOD 일반화에 대한 상한을 제시했어요. 위치 의존적 어텐션은 일반화 성능 저하를 유발하지만, 회전 임베딩은 불변성을 유지해요.

순차적 백트래킹을 Dyck-$k$ 언어로 매핑하여 TC$^0$ 트랜스포머의 회로 깊이 하한을 설정했어요. 표현 공간의 붕괴를 막기 위해 물리 계층 깊이를 확장해야 하며, 표현 폭만 확장하는 것으로는 해결할 수 없어요.

연구 결과, 54개의 트랜스포머 구성에 대한 평가에서 일반화 위험은 Wasserstein 도메인 이동에 따라 단조적으로 저하되는 것으로 나타났어요.

##LLM##추론##일반화##최적수송##Transformer

매일 핵심 AI 소식을 한국어로, 빠르게