Pulse · AI 뉴스

모델 붕괴 전 구조 유지: 다음 토큰 예측에서의 일시적인 의미론적 기하학

arXiv cs.CL · 2026-06-25

신경 붕괴 이론은 one-hot 분류가 모델 표현을 서로 멀리 떨어뜨려 대칭적인 구성을 만든다고 예측합니다.

다음 토큰 예측 언어 모델은 one-hot 레이블로 훈련되지만, 문맥 내의 잠재적 의미론적 구조를 학습합니다.

연구 결과, 모델은 명시적인 감독 없이도 공유된 속성을 가진 속성으로 표현을 클러스터링하며, 충분한 용량과 시간이 지나면 대칭 상태로 전환됩니다.

##신경망##언어모델##구조학습

매일 핵심 AI 소식을 한국어로, 빠르게