교체 학습(RepL)은 깊은 신경망 훈련 시 불필요한 파라미터 중복을 줄이는 새로운 훈련 방식이에요.
RepL는 제거된 블록 대신 가벼운 연산 레이어를 삽입하여 인접 블록의 파라미터를 활용해 서브 연산자를 생성하고, 이를 통해 로컬 컨텍스트 연속성을 유지해요.
CNN, ViT에 적용한 결과 CIFAR-10, ImageNet 등 다양한 데이터셋에서 기존 방식보다 파라미터, GPU 메모리 사용량, 훈련 시간을 줄이면서 성능을 능가했어요.
WikiText-2, 전이 학습, 추론 처리량, 체크포인팅 등 다양한 실험에서 RepL의 일반성과 호환성이 입증되었어요.