Pulse · AI 뉴스

희소 특징 기반 비대칭 스케일링 법칙 연구

arXiv cs.LG · 2026-05-22

연구진이 희소 활성화 기반 신경 스케일링 법칙 모델을 제시했어요. 모델 테스트 손실은 훈련 입력에서 관찰되지 않는 희귀 좌표에 의해 종종 지배돼요. 이로 인해 밀집 모델에서는 나타나지 않는 새로운 병목 현상이 발생해요.

연구진은 과소 매개변수화 및 과매개변수화 영역 모두에서 점근적 모집단 손실을 유도하고, 훈련 데이터를 맞추기에 충분한 매개변수 수가 있는 보간 임계값 근처에서 손실 곡선이 두 가지 다른 스케일링 지수를 나타내는 이중 하강 피크를 나타냄을 보여줬어요.

연구진은 또한 컴퓨팅 예산이 고정된 상태에서 데이터 세트 크기를 모델 용량보다 선호하는 컴퓨팅 최적 경계를 파악하고, 고정 단계 기울기 하강이 불안정해질 확률에 대한 스케일링 법칙을 분석했어요.

##연구##스케일링법칙##희소활성화
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기