본 연구는 모델 성능과 데이터 또는 컴퓨팅 간의 예측 가능한 관계를 설명하는 신경망 스케일링 법칙의 일반화 가능성을 탐구합니다.
스케일링 법칙은 정보 해상도 $ρ$ 가 변환될 때 예측 가능한 방식으로 수정되며, 불변 변환을 통해 한 도메인에서 다른 도메인으로 법칙을 전송할 수 있습니다.
언어, 비전, 음성 데이터를 통해 검증하고, 일반 텍스트에서 학습한 법칙을 활용하여 전자 건강 기록으로 학습된 언어 모델의 스케일링을 예측하는 등 두 가지 응용 사례를 보여줍니다.