본 연구는 웹 규모 데이터로 사전 훈련된 비전 재단 모델이 산업 시각 검사에서 얼마나 효과적인지 조사했어요. 산업 데이터는 웹 데이터와 크게 다르며 정밀한 예측이 필요하므로 ImageNet 기반의 기존 전이 학습보다 현대적인 자기 지도 사전 훈련이 개선될 수 있는지 확인했어요.
ConvNeXt 백본을 ImageNet으로 지도 감독하거나 DINOv3 증류로 사전 훈련하여 기존 ResNet-50 기준선과 비교했어요. RGB 표면 결함 검사 및 X선 결함 검사를 포괄하는 4개의 다운스트림 데이터 세트에서 의미론적 분할, 인스턴스 분할 및 객체 감지를 평가했어요.
RGB 작업에서는 완전한 미세 조정 후 DINOv3가 더 강력한 초기화를 제공하여 더 빠른 수렴과 더 나은 최종 성능을 얻었지만 X선 모달리티 변화에서는 ImageNet 사전 훈련이 여전히 더 효과적이었어요.