연구진은 0.8B, 2B, 4B Qwen3.5 모델에서 절차적 기술 SFT 기여도를 200개 작업/40개 기술의 홀드아웃 데이터셋으로 측정했습니다. Claude Haiku 4.5를 기준으로 성능을 비교했습니다.
LLM-only 스코어링을 통해 SFT에 기여하는 절차적 성능 향상($Δ$)은 모델 크기에 관계없이 약 0.070에서 0.075 사이로 유사하게 나타났습니다.
사전 SFT 트렌드가 W자형을 보이면서 0.8B와 4B 모델은 성능 저하, 2B 모델은 성능 향상을 보여주는 체제 비대칭 패턴이 관찰되었습니다.