연구진은 DeepSeek-R1 모델의 추론 능력을 Phi3 및 Qwen-Coder 모델에 전달하는 지식 증류 프레임워크를 제안했습니다. 이를 통해 교차 언어 코드 클론 탐지(X-CCD)의 성능을 향상시켰습니다.
Project CodeNet에서 파생된 교차 언어 코드 쌍을 사용하여 추론 지향적인 합성 훈련 데이터를 구축하고 LoRA 어댑터를 통해 모델을 미세 조정했습니다.
분류 헤드 변형은 생성 기반 추론에 비해 추론 시간을 크게 줄이며, 안정화된 응답과 결합된 추론 지향적 증류는 소형 오픈 소스 모델을 X-CCD 탐지에 더욱 실용적이고 안정적으로 만듭니다.