연구자는 코딩 에이전트에서 소규모 로컬 모델의 성능이 저조한 이유를 파악하기 위해 스캐폴드(scaffold)를 변경하는 실험을 진행했어요.
Qwen3.5-9B 모델을 동일하게 사용하고 스캐폴드만 변경했을 때, 기존 스캐폴드 대비 '리틀 코더(little-coder)' 스캐폴드를 적용한 결과 성능이 2배 이상 향상되었어요.
연구 결과, 코딩 에이전트 벤치마크 결과는 모델 가중치뿐만 아니라 스캐폴드와 모델의 적합성에도 크게 영향을 받는다는 점을 시사하며, 소규모 로컬 모델에 대한 평가가 너무 성급했을 수 있다고 주장했어요.