ProbeScale은 언어 모델 스케일링 법칙과 프로빙 분석을 결합한 프레임워크입니다. 이 프레임워크는 사전 훈련된 소형 언어 모델(SLM) 내에서 파라미터 효율적인 하위 네트워크를 식별합니다. RoBERTa-Large 및 T5-Base와 같은 대표적인 SLM에서 실험 결과, 최대 10배까지 파라미터 수를 줄이면서도 성능을 유지했습니다.
ProbeScale은 각 레이어가 특정 작업에 얼마나 중요한지 수학적으로 정량화하기 위해 작업별 프로브를 사용합니다. 이를 통해 성능과 파라미터 크기 간의 균형을 최적으로 맞출 수 있는 하위 네트워크를 선택할 수 있습니다.
ProbeScale은 원본 SLM 성능의 95~98% 수준을 유지하면서 파라미터 수를 5~10배까지 줄이는 데 성공하여 기존 방법보다 우수한 성능을 보였습니다.