연구진은 동결된 소규모 코드 모델의 성능을 개선하기 위해 두 가지 연산자를 개발했어요. 표현 계층 복구(M1)는 표준 추출기가 버리는 정확한 프로그램을 복구하며, DeepSeek-Coder-1.3B 모델을 HumanEval+에서 12개 태스크 향상시켰어요. 적응형 합의 조기 중단(ACE)은 계산량을 19% 절약하며 성능 저하 없이 작동해요.
M1과 선택 부정은 HumanEval+ 및 MBPP+에서 세 가지 모델 셀에 걸쳐 재현 가능했어요. 연구 결과, 모델의 의미적 추론 능력이 부족한 것이 아니라, 모델 활용 방식에 문제가 있을 수 있다는 점을 시사해요.
연구진은 모델의 활용 방식을 개선하고 커버리지를 측정하는 것이 모델의 성능을 개선하는 데 더 중요하다고 강조했어요.